IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于中文电子病历的心血管疾病风险因素标注体系及语料库构建

已有 1942 次阅读 2020-11-11 15:03 |系统分类:博客资讯

心血管疾病是一组发生于心脏和血管的疾病,每年死于心血管疾病的人数多于任何其他疾病。而在发展中的中国,情况更为严重。下图展示了1990-2015年中国城乡居民心血管疾病死亡率变化。(图片来自《中国心血管病报告(2017)》)


image001.png

图1  1990-2015年中国城乡居民心血管疾病死亡率


幸运的是大多数的心血管疾病可以通过控制解决诸如烟草使用、不健康饮食、肥胖、缺乏锻炼等风险因素而得到预防。


如何对患者存在的风险因素进行控制?


计算机自动化地抽取出真实的患者健康数据中的心血管疾病风险因素将为对其控制提供许多可能,可以助益医生对患者的风险因素进行总体把控,跟踪风险因素发展,同时也为患者了解自身健康状况提供方便。为此,我们提出基于中文电子病历的心血管疾病风险因素标注体系,并以此为基础构建了标注语料库,以实现对患者电子病历中心血管疾病风险因素的自动化抽取。


通过对中文电子病历中的出院小结和首次病程记录的分析,提出了三大类共12种心血管疾病风险因素(超重或肥胖、高血压、糖尿病、血脂异常、慢性肾病、动脉粥样硬化、阻塞性睡眠呼吸暂停综合征、吸烟、过度饮酒、心血管疾病家族史、年龄、性别)的标注体系。标注体系见下图。


image002.png

图2 风险因素标注体系缩略图


标注体系分为对风险因素的指针、时间属性和修饰三部分进行考虑。指针是一种特征用以表征风险因素的存在,换言之,就是用来反映文本是以何种缘由被标注为该风险因素,如“BP150/100mmhg”是以“血压高”这个指针被标注为风险因素高血压。时间属性用以表达的是风险因素存在的时间信息,按风险因素的发生时间和患者住院时间的先后关系分四类:住院之前,住院期间,出院之后,一直持续,如“有高血压病史,最高达180/100mmHg”,文本中“180/100mmHg”是在高血压病史之后出现, 认为这里的“最高达”发生于过去, 对应的风险因素高血压发生于住院时间以前, 标注高血压的时间属性为住院之前。修饰用来表明风险因素是否对患者本人进行考虑以及对本人进行考虑时发生的确定程度,进行肯定的、否定的、可能的、非患者本人的这四种分类,如“既往高血压病史20年”,“高血压病史20年”确定在患者身上发生过, 修饰标注为肯定的。


在标注体系的基础上,我们构建了12种风险因素的标注规范,并在600名患者的出院小结和首次病程记录共1200份电子病历上构建心血管疾病风险因素标注语料。下图为风险因素语料构建流程图。


image003.png

图3 风险因素语料构建流程图


最终,我们在具有专业医疗知识背景人员的标注下取得了较高的标注一致性(F1值0.968)。对心血管疾病的自动诊断初步实验显示了心血管疾病风险因素标注语料对自动诊断效果提升显著(使用XGboost方法做诊断时F值由0.720提升到0.811),这表明风险因素信息的实用价值。当然,价值远不止于此,基于标注语料的研究仍在不断探索中。


引用格式:

石苏嘉, 何彬, 吴昊, 杨锦锋, 关毅, 姜京池, 王焕政, 于秋滨. 基于中文电子病历的心血管疾病风险因素标注体系及语料库构建. 自动化学报, 2019, 45(2): 420-426


文章链接:

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170206


作者简介


苏  嘉

哈尔滨工业大学计算机学院博士研究生. 主要研究方向为信息抽取和自然语言处理.  

E-mail: sjd163mail@163.com


何  彬

华为诺亚方舟实验室高级工程师,2019年获哈尔滨工业大学博士学位. 主要研究方向为命名实体识别,实体关系抽取.

E-mail: hebin_hit@foxmail.com


吴  昊

哈尔滨医科大学附属第二医院硕士研究生. 主要研究方向为血管瘤和circRNA 在纤维化中的作用机制.  

E-mail: rosiewuyanxi@gmail.com


杨锦锋

哈尔滨理工大学讲师,哈尔滨工业大学管理学院电子健康研究所博士后,2015年获哈尔滨工业大学博士学位. 主要研究方向为健康信息学,自然语言处理. 

E-mail: fondofbeyond@163.com


关  毅

哈尔滨工业大学计算机学院教授,博士生导师,1999年获哈尔滨工业大学博士学位. 主要研究方向为健康信息学,自然语言处理.  

E-mail: guanyi@hit.edu.cn


姜京池

哈尔滨工业大学计算机学院博士研究生. 主要研究方向为医疗知识网络,知识图谱.  

E-mail: jiangjingchi0118@163.com


王焕政

网易(北京)算法工程师,2018年获哈尔滨工业大学硕士学位. 主要研究方向为知识挖掘,自然语言处理. 

E-mail: whz123_hit@163.com


于秋滨

哈尔滨医科大学附属第二医院副主任医师. 主要研究方向为电子病案的数据挖掘. 

E-mail: yuqiubin6695@163.com




https://wap.sciencenet.cn/blog-3291369-1257966.html

上一篇:具有尺度和旋转适应性的长时间目标跟踪
下一篇:区间二型模糊集和模糊系统: 综述与展望
收藏 IP: 159.226.182.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 22:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部