许培扬博客分享 http://blog.sciencenet.cn/u/xupeiyang 跟踪国际前沿 服务国内科研

博文

智能检索不是万能的

已有 2348 次阅读 2017-3-25 10:22 |个人分类:信息检索|系统分类:观点评述

      国际上各类数据库采用计算机自动标引、自然语言处理、智能检索技术。文献信息数据表达概念的多样性与复杂性,智能搜索检索技术不可能全面准确地检索到相关信息数据。任何检索系统的检索效率(查全率、查准率)很难做到100% 。检索的问题和要求太多,必须人工干预,分析判断。

       智能检索的基础是自动标引,检索效果和效率与标引质量相关。中国知网的中国医院知识仓库(CHKD)的智能标引与检索系统,已经14年了,有词表和标引专家审核数据质量控制,目前的标引质量准确率为96%,智能检索质量很好,但还有些问题需要不断改进。

自动标引的概念歧义

http://blog.sciencenet.cn/blog-280034-1041208.html

2017-3-23 17:41

文献的计算机自动标引最大的问题是文本词抽取采用截词的方法,有的词汇会有概念的歧义。 国内的中文计算机辅助标引系统,都有关键词库,将关键词转换成主题词,有的文本词(关键词)转换成主题词后与文献主题概念的含义不同,出现概念歧义。 下面是两个主题词“能力倾向”出现歧义 ...271 次阅读|没有评论

下面的检索问题,我作了解释。

病例检索工具

难以满足医院需求

医疗大数据应用的落地离不开需求、数据和技术三要素,缺一不可。然而,不少医院在大数据应用领域依然非常欠缺,仍处于“小米加步枪”的低级阶段。


医学自然语言处理就是最基本的一个需求,语义理解是医疗大数据的基础技术。一个最简单的例子,查找病例中含“吸烟”既往史的案例,现在结果可能将“不吸烟”的病例也搜索出来,因为“不吸烟”三个字含有“吸烟”这个词语,这就是否定语义的处理不当,所以医学自然语言处理的难点一个是医学术语集与规范化,另一个是医学语言的“语义理解”。

      文献中的上中下、大中小、早中晚、前后左右、是否、是非、药物的用量。。。。。。很多概念的限定,很难实现全面准确的检索。更多的是文献信息中的隐含概念,隐性知识也很难检索出来。----许培扬

医学语言的语义理解两方面;病例检索是最为基础性的需求,临床人员希望检索工具能从诊断、手术、用药、检查结果、病例、组学特征中任意选择检索条件和检索路径,支持病例文本基于自然语言理解基础的语义检索,支持探索式检索具有高性能,保证响应时间在3秒之内,然而遗憾地是,目前市场上可见的检索工具几乎都达不到要求。

我们希望给医护人员提供一个灵活的检索工具,但是市面上能看到很多互联网企业虽然做了很大努力,可还是没能解决病例检索的问题。比如,对于检索出所有“化疗之后白细胞下降的患者”这一简单要求,很多软件仍无法实现。

治疗前后、手术前后等;白细胞下降,包括白细胞数量指标等的限定自动检索分析很难做到。

病例信息数据非常复杂,利用信息数据的准确性要求 高,不能指望完全依靠计算机检索分析结果,必须由医生专家自己分析,作出判断----许培扬

所以,现在很多基于病例检索的专科专病数据库构建依然靠手工完成。

建立疾病专科数据库,积累病例数据,是每个科室都会自觉去做的事。难以置信地是,科室整理一份科研病例需要的时间是2~3个小时,工作量远超想象。

所以医护人员很难有时间和动力去做病例的收集和整理,虽然目前有不少软件支持,但智能化程度还不够。能否自定义数据内容、以结构化方式抽取病例数据,支持数据的补充录入,能否集中化地处理病例,让患者参与到随访互动中都是的电子病历工具的评判标准。

http://mp.weixin.qq.com/s?__biz=MzA5Mzg2MTMwMA==&mid=2650367040&idx=2&sn=314ac4148d6f0b93baebc8c5f05474cc&chksm=885aa09bbf2d298dc0478cdcd0b97a3a708c28e1652e3182bb80b70f8cfecf1dac97e0f18342&mpshare=1&scene=1&srcid=03245JEjeFdjt0thIOLGiJUH#rd


下面是PUBMED数据库智能检索的例子:

检索AIDS  艾滋病      

"acquired immunodeficiency syndrome"[MeSH Terms主题词] OR ("acquired"[All Fields全部字段] AND "immunodeficiency"[All Fields] AND "syndrome"[All Fields]) OR "acquired immunodeficiency syndrome"[All Fields] OR "aids"[All Fields]

https://www.ncbi.nlm.nih.gov/pubmed/details?querykey=1

在计算机自动构置的检索策略里包括  "aids"[All Fields],是对的,如果不检索aids,用英文小写aids艾滋病的文献就会漏检。但 aids还有帮助;助手( aid的名词复数 );外援;辅助设备的意思,这些文献检索属于误检。




https://wap.sciencenet.cn/blog-280034-1041522.html

上一篇:韩春雨 NgAgo技术论文进展与动态
下一篇:书法习作 90 今日K歌 我的祖国 最高分SSS
收藏 IP: 1.180.212.*| 热度|

1 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 19:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部