许培扬博客分享 http://blog.sciencenet.cn/u/xupeiyang 跟踪国际前沿 服务国内科研

博文

Arrowsmith知识发现系统用于科研选题

已有 6508 次阅读 2013-8-1 11:32 |个人分类:知识发现|系统分类:科研笔记| 知识

        随着科学技术的飞速发展,医学领域分工日益细化,跨专业的沟通变得更加困难,而某个专业领域的信息,可能对相关专业领域是有价值的,它们之间存在着某种隐含的有价值的关联,而以常规检索方式通常不能发现这种关联性。美国学者Swanson教授于1991年设计了非相关文献知识发现法,并且设计了相应的人机交互系统(Arrowsmith知识发现系统  http://arrowsmith.psych.uic.edu/arrowsmith_uic/index.html),帮助医学科研人员更好地发现这种隐含的知识概念关联,为科研工作提供新的研究思路和新的科研方法。

      这里以知识发现实例来介绍知识发现系统的功能和知识发现的方法。

        发现268 个胃转流手术治疗糖尿病研究的相关理论、机理、方法等知识概念,这些知识概念是文献中隐含的知识点,称为非相关文献的知识概念,也称隐性知识,这些文献之间没有引证关系(引用或互引),科研人员可以去分析这些知识点,也许从中获得科研启发,对科研选题有所帮助;也许对正在进行中的科研工作有参考意义。

胃转流手术治疗糖尿病文献中的知识发现   http://blog.sciencenet.cn/blog-280034-713076.html

知识发现平台  http://arrowsmith.psych.uic.edu/arrowsmith_uic/index.html

知识发现报告发布在我的博客:知识发现栏目http://blog.sciencenet.cn/home.php?mod=space&uid=280034&do=blog&classid=115378&view=me&from=space  大家可以参考。

刘桂锋老师问:

许教授,最近对知识发现感兴趣,有时间多指点,谢谢。

刘老师,您好。

http://arrowsmith.psych.uic.edu/arrowsmith_uic/index.html 主要用于生物医学领域的知识发现,我不太了解国内外其他学科领域有没有知识发现的系统?我觉得情报界对信息检索与分析已经非常熟悉并重视,但对知识发现不太熟悉和应用。因此我多做些实例介绍,希望科研人员,特别是情报人员能多研究和应用。

请参考阅读更多的知识发现实例:(点开题目,就可以阅读全文)

快乐对人类基因的影响研究的知识发现

热度 1 2013-7-31 11:00最新研究动态: PNAS:快乐影响你的基因 http://www.ebiotrade.com/newsf/2013-7/2013730115933502.htm 好的心态会对你的基因产生影响。在首个该类研究中,来自加州大学洛杉矶分校和北卡罗来纳大学的研究人员调查了积极心理状态对于人类基因表达的影响。他们发现,不同类型的快 ...个人分类: 知识发现|119 次阅读|1 个评论分享

脑肿瘤蛋白Brat研究进展与知识发现

2013-7-29 13:04刘桂锋:许教授,最近对知识发现感兴趣,有时间多指点,谢谢。 刘老师,您好。 http://arrowsmith.psych.uic.edu/arrowsmith_uic/index.html 主要用于生物医学领域的知识发现,我不太了解国内外其他学科领域有没有知识发现的系统?我觉得情报界对信息检索与分析已经非常熟悉并重视,但对知识发现不太熟悉和应用。因 ...个人分类: 知识发现|112 次阅读|没有评论分享

人体身高与癌症关联研究的遗传基因知识发现

2013-7-26 16:49terahertz 刘桂锋 许教授,最近对知识发现感兴趣,有时间多指点,谢谢。 刘老师,您好。 http://arrowsmith.psych.uic.edu/arrowsmith_uic/index.html 主要用于生物医学领域的知识发现,我不太了解国内外其他学科领域有没有知识发现的系统?我觉得情报界对信息检索与分析已经非常熟悉并重视,但对知识发现不 ...个人分类: 知识发现|214 次阅读|没有评论分享

血清素(serotonin)与情绪基因(5-HTTLPR)研究的知识发现

热度 1 2013-7-26 08:39terahertz 刘桂锋 许教授,最近对知识发现感兴趣,有时间多指点,谢谢。 刘老师,您好。 http://arrowsmith.psych.uic.edu/arrowsmith_uic/index.html 主要用于生物医学领域的知识发现,我不太了解国内外其他学科领域有没有知识发现的系统?我觉得情报界对信息检索与分析已经非常熟悉并重视,但对知识发 ...个人分类: 知识发现|138 次阅读|1 个评论分享

H7N9病毒研究的知识发现

2013-7-22 07:10H7N9病毒研究的非相关文献知识概念的发现,对H7N9科研工作可能有所启发或参考价值。 知识发现平台: http://arrowsmith.psych.uic.edu/cgi-bin/arrowsmith_uic/edit_b.cgi?refresh=TID=12343 Start A-Literature C-Literature B-list Filter Literature ...个人分类: 知识发现|250 次阅读|没有评论分享

知识发现平台又可以用了

2013-7-20 11:45知识发现平台又可以用了,很长一段时间不能用,可能是他们在系统维护,但没有什么告示。 信息分析与知识发现支持科研工作 http://blog.sciencenet.cn/blog-280034-253311.html 在线知识发现平台: http://arrowsmith.psych.uic.edu/arrowsmith_uic/index.html 个人分类: 知识发现|178 次阅读|没有评论

 

什么是知识发现?请参考阅读文献:

Don R.Swanson的情报学学术成就的方法论意义与启示  

       随着科学技术的飞速发展,专业分工越来越细,跨专业的沟通变得更加困难,而一个专业领域的信息可能对另一个专业领域是有价值的,一定存在着某种隐含的有价值的关联,而以常规的方式是检索不到这种关联的。美国芝加哥大学情报学教授Don.R  Swanson创立了一种情报学方法--基于非相关文献的知识发现方法及人机交互系统Arrowsmith,很好地解决了这个问题。本文详尽地介绍了Swanson的情报学方法的产生背景、概……
  情报学是一门成长中的年轻学科,一般认为,以V.Bush在1945年发表的著名论文“As  We  May  Think”为开端,迄今为止已有50余年的历史[1]。从情报学的发展看,经历了艰难和曲折的历程,情报学与其他教科学研究相比明显滞后,尤其是近年来情报学的发展正面临着日益严重的危机和挑战,其根本原因在于理论的困乏和方法论的建设力度不够。情报学发展至今,仍然缺乏纯情报学的专门方法,而多是借鉴和移植其他相关学科的方法,这样严重影响了情报学的学科地位。如果不能从理论和实践两方面来建设自己的方法论体系,就难以把情报学当作一门学科来发展,就不能在软科学界获得自己应有的地位,这也是目前情报学界面临的最大挑战之一。

 1985年美国芝加哥大学的Don  R.Swanson教授创立了一种纯情报学的研究方法——基于非相关文献的知识发现,仿佛一股清新的空气为情报学带来了新的活力。于2000年,美国情报科学与技术学会(ASIST)因为Swanson独特的情报学方法授予他该学会的最高成就奖,该学会对他的评价是:Swanson是一位完美的情报学家,他为基于文献的知识发现研究奠定了理论基础,他所开创的情报学方法和对情报检索功能的扩展使情报学的地位得到了提升。Swanson出色的工作指明了“情报学到底是什么”和“情报学家应当做什么”,由于他在非相关文献领域所做的先驱性的研究工作,Swanson已成为情报科学应努力追求的目标和方向。
      1 非相关文献的知识发现
    1.1 产生背景
  在四十多年以前,科学家就在积极地探讨科学知识分裂化(fragmentation  of  scientific  knowledge)现象,但一直没有很好的解决方案。美国芝加哥大学的教授Don  R.Swanson从三个方面对知识片断理论作出了说明[2]:
  (1)客观知识的总量与人类吸收知识的能力之间存在着巨大的差距,并且这种差距在不断地扩大。
  (2)在信息爆炸时代,随着科学技术的越来越专业化,跨学科的信息传递变得更加困难,就会产生知识的分裂,并且随着知识的持续增长,这种现象会更加严重。
  (3)一个专业领域的信息可能对另一个专业领域是有价值的,跨学科间一定存在着潜在的未被发现的关联。事实上文献间隐性的关联数量可能远多于显性的相互引用的关联数,并且这种隐性关联的发现比信息本身的增长更有意义。
  Swanson通过深入细致的研究,证实了上述现象的存在。Swanson在1985年一个偶然的机会,发现两篇医学文献放在一起,会揭示出一个问题的答案,而这个答案是从单独一篇文献得不到的。这预示着在医学文献中存在着大量的未被发现的隐含的关联。举例来说:A表示一种物质的摄入可能导致一种独特的生理改变B,而B又作用于身体的某器官或一种疾病C。如果把两类文献放在一起加以研究就会获得有用的信息即A作用于C,而这种信息是不能根据单独一类文献得到的,我们称AB和BC这两种文献是互补的。并且,一个专业领域的文献的作者和读者一般并不熟知另一专业领域的文献,也就是说两类文献从没有或很少被共同引用并且也不相互引用,我们称这两类文献是相互独立的,也就是非相关的。这种情况在两个不同的专业领域是经常存在的,因此几乎没有人考虑到把两类文献放在一起加以研究,也不会有人注意到A和C之间可能存在的隐含联系。互补性和非相关性描述了在公开信息中存在着未被发现的有价值信息的模型结构。图1说明了在目标文献A和源文件C之间有很多中间文献B[3]。
  附图
  图1 互补的非相关文献
    1.2 Swanson的知识发现方法
  Swanson认为在已经发表的非相关文献中可以推理得到未被发现的知识,并举出了一些令人信服的例证。他把这些通过推理而得到的有价值信息称为“公开文献中未被发现的知识”。公开是指已发表的文献,直到有人检索到相关的文献并注意到它们之间的逻辑关联才会推理出新的知识。由于这些文献是关于不同主题或属于不同学科的,从中推理出新的知识可能需要相当长的时间或凭借某一次很好的运气。
  Swanson解决了这个问题,并相应设计出了一套计算机软件系统——Arrowsmith(详细介绍见下文)去搜索非相关文献中的这种联系,目的在于帮助研究者从中找到新的有科学价值的信息。Swanson的工作得到情报学界的普遍赞同,Swanson称他的方法为基于文本的情报学方法。
  最近Swanson与伊利诺斯大学精神病学助理教授Neil  R.Smalheiser合作,主要致力于以下的研究,A和C通过实验一定存在某种联系,而想知道他们是如何关联的,或者说A和C的可能相关性究竟是什么。
    1.3 什么是Arrowsmith
  常规的MEDLINE检索方式是通过给定的题目检索已发表的文献。然而,这种方式在进行科学发现时存在着局限性[4]:(1)确认和评价新的、未被验证的科学假设。(2)进行新的临床实验来探讨两个不同领域之间的联系。为了扩展MEDLINE检索功能,克服其局限性,Swanson于1991年设计了一个人机交互的软件系统并制定了相应的数据库检索策略,称为Arrowsmith,用于分析研究非相关的互补文献,更加易于在两组生物医学文献间发现互补性结构[8]。
  Arrowsmith只是扩展了MEDLINE检索功能,但不能代替常规的检索,因为它需要常规检索的结果作为输入的数据,使研究者发现文献间新的关联和形成新颖的科学假设,当然前提是某领域的知识可能在另一领域不被人所知而具有更大的价值。
  使用者通常以一个有关两个实体的问题开始,例如饮食A和疾病C,通过常规的检索方式A和C没有交集,那么物质A或A的缺乏是否会影响疾病C呢?假如存在这样的情况,A影响B,而B又作用于C,那么就会推理出A影响C,即使在有关A和C的文献中分别提到了B,这种A和C之间存在的隐含的关联通过常规的数据库检索是不能发现的,那么Arrowsmith很好地解决了这个问题,前提是这些关联能在标题中反映出来。
  Arrowsmith系统是从数据库记录的标题中提取自然语言加以并列,供研究者加以观察,以促进发现进程而不是使发现过程模式化或自动化。从标题和文摘中的自然语言中识别出关联性需要具有一定的判断力和广泛的背景知识。
  Arrowsmith系统是可以免费使用的,可以登录到http://kiwi.uchicago,edu或http://Arrowsmith.psych.uic.edu上,后面的网站装载的Arrowsmith的最新版本,已较上个版本做了很大改进,打破了Arrowsmith只能应用于标题的局限性,可以是文摘和主题词,并且Arrowsmith与PubMed实现了紧密结合,使用Arrowsmith变得更加容易、快捷和灵活。
    1.4 Swanson的情报学方法的理论基础
  英国的布鲁克斯根据波普尔(Karl  Popper)的“三个世界”理论(即“世界1”是客观物质世界,“世界2”是主观知识或精神状态的世界,“世界3”是客观知识世界)的哲学理论出发,提出了情报学的理论任务,指出情报学是关于客观知识的分析、组织、传播和利用的科学。情报学家和图书馆学家则主要研究“世界2”与“世界3、世界1”间的相互作用,并对“世界3”中的各种记录下来的知识进行搜集和组织,以供利用。现在,人们要探索“世界1”,就非得同时探索“世界3”不可。人们从“世界3”取得所必须的知识,并利用这种知识将“世界1”和“世界2”联系起来,“世界2”作用于“世界1”的结果,记录下来又成为“世界3”中的一部分。整个这一过程就是情报过程,情报就是这种过程中的动态的知识[5]。
  公开文献中存在着未发现的知识正是根据波普尔的客观知识世界存在着至今未明确表述出来的隐含知识,并且由于概念的排列组合使客观知识世界的未发现知识持续地增长[6]。
  客观知识世界中的知识增长是不受客观物质世界所获得知识的局限,客观知识世界与客观物质世界、主观世界一样,同样可以进行新的探索与发现。每一个新概念的产生,将会有大量的与现有的其他概念的潜在关联,因这些关联而可能产生的新知识等待着人们去发现。这就是Swanson的情报学方法存在和发展的哲学基础。
    1.5 Swanson的知识发现方法的成功应用
  Swanson的第一个基于文献的知识发现方法的成功案例就是在1986年有关雷诺病与食用鱼油的研究。第二个例证是1988年有关偏头痛和镁缺乏的研究。镁缺乏会导致某种生理改变,这种改变是与偏头痛相关的。在图1中A和C之间存在着11种关联,也就是说B包含了11种生理改变,举两例来说明:镁可以抑制大脑皮层机能降低,而机能降低可能与偏头痛的发作有关;镁缺失率作为癫痫症的诊断标准,而癫痫症是与偏头痛相关的。需要强调说明的是,即使镁和偏头痛具有非直接相关的文献各超过60篇,但它们并没有互相引用。1988年以前,在MEDLINE上镁和偏头痛合并检索没有命中文献,在1988年以后,有至少12组不同的医学研究工作者进行了报道,偏头痛患者存在着全身或局部的镁缺乏,或者偏头痛患者由于饮食补充镁而起到有益的变化。也就是说Swanson发现的镁与偏头痛的关联性在临床上已被反复证实了,当然也有一例负面结果的报道。
  一个是否具有科学意义的假设可根据以下四个方面加以评定:
  (1)假设的可行性;
  (2)权威生物医学期刊上可发表的接受程度;
  (3)是否能引起生物医学工作者的注意并进行相应的临床实验和试验室研究;
  (4)假设是否能被随后的实验结果验证支持。
  以上的两个早期实例“雷诺病和鱼油”及“偏头痛和镁”都符合上述评定标准,并在以后的相关研究中被反复地加以举例引用。
  Swanson还与他的合作者Neil  Smalheiser利用Arrowsmith系统进行另外五项研究[2.6]:镁缺乏与神经系统疾病(1994年)、消炎痛与Alzheimer病(1996年)、雌激素与Alzheimer病(1996年)、游离钙磷脂酶A2与精神分裂症(1998年)、可作为生物武器的潜在病毒(2001年)。
      2 对Swanson情报学方法的评价
  Swanson的基于非相关文献的知识发现方法一经出现,立即引起了美国情报学界的广泛关注,生物医学领域的研究人员也在慢慢地接受和应用Swanson的方法,但在一片赞扬声中也存在着对他的方法的批评:
    2.1 肯定的评价
  在2000年美国情报科学与技术学会(ASlST)授予Swanson学会最高成就奖的典礼上,在介绍他的致词中,对Swanson的情报学方法给予了充分的肯定。Swanson在过去十五年的基于医学文献的知识发现研究是革命性的和可仿效的,把情报科学成功地应用于医学,通过文献的研究提出科学的假设,他使文献处于与临床实验同等重要的地位。他设计的第一个创造性的情报工具Arrowsmith系统架起了跨学科间沟通与交流的桥梁,更加易于发现非相关文献间的隐含关联。
  美国密歇根大学商学院计算机和情报系教授Michael  D.Gordon是Swanson的方法的坚定支持者,称他的方法为基于文献的知识发现。他认为,Swanson把从公开文献中进行知识发现的思想变得具体化和具有可操作性,他进行了具有构思巧妙和可以重复的实验,并且一些医学组织根据Swanson的文献中报道的关联性把实验继续下去。
  美国费城科学情报所的Henry  Small认为Swanson已为情报科学开拓了一个新的研究方向,创造了一种新的情报方法。不管这种方法成功与否,人们会以一种新的方式理解情报科学,不再简单地认为,情报学的主要任务是情报检索,而是可以向知识发现的方向拓展[7]。
  2.2 批评的意见
  美国费城科学情报所的Henry  Small同时对Swanson的方法也持一种怀疑的态度。如同任何新生事物的产生都会引起人们的怀疑一样,Swanson没有在实验室收集过任何的实验数据,而这正是验证科学假设的最主要途径。
  Arrowsmith的一个显著的缺点是只能作用于文献的标题,而不能作用于全文、文摘甚至是主题词。Swanson对此作出的解释是医学文献的绝大多数标题是能够准确表达文章的主题的,而要Arrowsmith处理文摘或全文要花费相当长的时间。
  位于底特律的韦恩州立大学的图书馆学副教授Kenneth  A.Cory指出,把Swanson的方法应用于人文科学时会带来一些问题,有相当多的文章标题是虚构的和象征性的,例如,“镜子和灯”讨论的是浪漫主义理论,科学家会试图去搜索它们之间的因果关系,而人文主义者会努力探求其意味深长的寓意。
  Arrowsmith的另一个问题是使用者需要花费大量的时间和精力,因为两类非相关文献的合并会产生词语数量相当庞大的列表B,需要使用者认真地测览和筛选。并且当网络的速度减慢时,则系统的反应时间也会变慢。Swanson的合作者伊利诺伊大学精神病学助理教授NeilR.Smalheiser也认同这一点,Arrowsmith处理文件的时间长短取决于文件的大小,从30分钟到几个小时不等,并且还需要精通该领域的专家花费一定的时间来处理解释输出的结果,从中发现有价值的信息。此外,也不能保证通过Swanson的方法每次都能成功地推测出科学假设。
  对Arrowsmith存在的另一种担心是计算机是否会代替人脑,由计算机产生假想是否会抑制人类思维的敏感性和创造力。
    2.3 存在的争鸣
  位于匹兹堡的卡内基·梅隆大学的Raul  Valdes  Perez博士在《the  Scientist》杂志上发文,针对Arrow  smith的怀疑作出如下答复:对任何新生事物持怀疑态度的观点是不可取的,因为科学家总是在不断地发现和创造新的事物,在MEDLINE中总是能够发现新的疾病、基本粒子和化学反应,主要的问题应是找到正确的关联,而恰恰Arrowsmith为我们提供了简单而又智能化的方法。
  如果说Arrowsmith不能在人文科学领域进行成功的发现,那么在医学领域同样会遇到失败的尝试;虽然应用Arrowsmith会花费一定的时间和精力,但比仅通过大脑的想像要更加高效。人们应该努力掌握使用计算机的能力,而不是抱着怀疑和批评的态度。
  美国密歇根大学商学院计算机和情报系教授Michael  D.Gordon认为,没有必要担心计算机会代替人类,永远也不可能把所有的科学研究过程都交给计算机处理,计算机只是科学家进行科学研究的辅助性工具,它会帮助科学家从繁琐的、机械性的工作中解脱出来,这样科学家会有更多的时间思考问题[8]。
    2.4 作者的观点
  Arrowsmith从产生到现在一直进行着版本上的更新和功能上的完善,Arrowsmith的最新测试版已经解决了Arrowsmith只能作用于标题的问题,已可以作用于主题词和文摘,并且也大大缩短了处理文件的时间。笔者曾以“镁和偏头痛”为例,在2001年底测试Arrowsmith  2.0版本,上传文件后半个小时没有输出结果,而2002年同样的课题采用Arrowsmith最新版等待输出结果,时间缩短到了几分钟。并且Arrowsmith的操作界面变得更加友好,更加易于推广和使用。
  作为情报学家要想在其他的领域发现非相关文献间有价值的关联是比较困难的,尽管存在这样的推理形式:“A→B”和“B→C”,就会得到“A→C”,但事实上在复杂的专业领域如医学存在着相当多的因果关联,是不会简单地得到这种推理关系“A→C”的。情报学家要应用Swanson的方法还需要通晓所要研究的专业领域,比较现实的方法是情报学家与所要研究的领域的专家合作,从大量的关联中挑选出具有科学意义的关联,并作为一种科学假设或启发性思路,而非科学发现,以期引起该领域的专业人员的注意,只有经过他们的临床或实验室的验证后,才能肯定地说是科学发现。
http://www.landong.com/gp_lw_1_166.htm



https://wap.sciencenet.cn/blog-280034-713113.html

上一篇:胃转流手术治疗糖尿病文献中的知识发现
下一篇:钱学森1986年谈气功
收藏 IP: 218.11.179.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 01:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部