许培扬博客分享 http://blog.sciencenet.cn/u/xupeiyang 跟踪国际前沿 服务国内科研

博文

生物医学大数据最新研究进展

已有 6240 次阅读 2013-7-1 09:14 |个人分类:数据科学|系统分类:科研笔记| 医学



【题】大数据时代的生物医学
【出处】《中国计算机学会通讯》第 9 9 2013 9 月刊
【作者】刘 雷

 

关键词:大数据 生物医学

大数据时代的生物医药科学研究活动特点

如今大数据时代已经悄然而至。生命科学领域里以脱氧核糖核酸
(deoxyribonucleic acid, DNA) 双螺旋结构的提出为起点,在20 世纪后期出现了飞跃式的发展。几个具有重大意义的技术革新,如基因的一代测序、二代测序和各种组学的技术等大大加速了生命科学领域数据的产生速度。现代数字化医疗系统也正在产生海量的数据。生物医学的数据研究活动呈现出其自身的特点:

数据量特别庞大
由于现代科研技术的发展,现代生物医学研究会产生大量的数据,有些实验甚至可达TB 级。互联网的广泛应用又使得原来彼此之间相互孤立的数据可以相互交换、对比并且即时更新。生物医药领域建立起大量专用数据库,这些数据库之间又通过互联网技术连接共享。这些都使得数据量在横向上迅速增大。

数据复杂异构
数据的来源以及试验人员的差异直接影响使用者的感受。数据的形式、格式也是多种多样,既有可直接计算的数值数据,也有不可直接计算的自然语言。现代生物技术中的仪器设备也都有各自不同的数据输出格式。就医学影像来说,各个计算机断层成像(computed tomography, CT)厂家的仪器都有各自的数据格式,数据交换很困难。为解决这个问题,医疗影像行业内制定了数字影像和通信(Digital Imaging and Communication in Medicine, DICOM) 标准,可将不同格式的影像数据转换成标准数据模式。标准化是解决数据异构的一种方法。

数据驱动
大数据时代的来临对实验科学产生了重大影响。其中,生物医药领域里科学研究的一个重要发展趋势就是数据驱动。以前进行实验的目的是获得结论或者是提出一种新的假设,而现在通过对海量数据的研究来探索其中的规律,可以直接提出假设或得出可靠的结论。


大数据实例

第二代DNA测序技术

 

第二代测序技术(next generation sequencing) 也叫新一代测序、高通量测序技术。二代测序可以一次对几十万到几百万条DNA 分子进行序列测定,使得对一个物种的转录组和基因组进行细致全貌的分析,以及在极短时间内对人类转录组和基因组进行细致研究成为可能,是对传统测序的一次革命性改变。二代测序的核心思想是边合成边测序( sequencing by synthesis, SBS),即通过捕捉新合成的末端的标记来确定DNA 的序列。与传统的桑格(Sanger)测序技术相比,新一代测序平台最大的变化是无需克隆这一繁琐的过程,而是使用接头进行高通量的并行聚合酶链反应(polymerase chain reaction,PCR) 直接测序,并结合微流体技术,利用高性能的计算机对大规模的测序数据进行拼接和分析。新一代测序平台所产生的数据量是巨大的。使用第一代ABI 3730XL 毛细管电泳测序仪进行基因分析,每年至多能完成6000万碱基的测序量。而在2005 年刚刚开始进行新一代测序技术开发时,Roche 公司和454 公司联合开发的焦磷酸测序仪的分析速度就已经达到了上述提及的ABI 仪器速度的50 倍以上。如今,新一代测序平台SOLiD 单次运行,便可以分析6GbGigabasepairs10 亿碱基对)的碱基序列;5500 SOLiD 能够对最长75 个碱基的DNA 片断进行测序,每周能够产生大约100G DNA 碱基序列;454 测序仪单次运行则可以将6Gb的碱基序列转换成12 ~ 15GB 的数据信息,如对平均长度为400 个碱基的DNA 片断进行测序,每周能够产生大约10G DNA 碱基序列。而Illumina Genome Analyzer(GAII)测序系统仅在两个小时的运行时间里,就得到10TB 的信息。Solexa 能够对最长150 个碱基的DNA 片断进行测序,每周能够产生大约200G DNA 碱基序列。将如此庞大的数据称为“大数据”,当之无愧。在飞速增长的数据量面前,科研人员感受到了巨大的压力,在数据存储、数据分类、数据处理等多个方面也随之产生了种种考验。

目前问题在于,测序仪生产商仅仅提供用于某些特定基因信息分析的软件,如靶标重测序、基因表达分析、染色质免疫沉淀反应或基因组从头测序等,而并未提供任何其它类型的下游生物学信息分析软件。虽然有多名科研人员致力于研究开发二代测序结果分析软件,但迄今为止,并没有出现一款集有效性和权威性于一体,得到学界公认的二代测序结果分析工具。由于二代测序的大数据将为后续工作带来如此多的考验,并且这些难题也从技术和经济层面上增加了二代测序的成本,因此尽管二代测序能提供更多的信息,更多科研公司依然会选择相对便宜的一代测序。

综上所述,虽然二代测序技术的发展正在渐趋完善,但却未能发展出与其所带来的“大数据”相配的
生物信息学手段。若期望二代测序从大型测序中心走入普通科研人员的实验室,则还需要研究人员付出更多的努力。只有开发出经济实惠的分析软件以及数据管理系统,二代测序技术才能真正普及化。

医学影像

医学影像是指为了医疗或医学研究,对人体或人体某部分,以非侵入方式取得内部组织影像的技术与处理过程,包括影像构成、撷取与储存的技术以及仪器设备的研究开发。医学影像数据主要来源于
CT 成像、磁共振成像、超声成像、核医学成像等,大多是二维和三维的数字图像数据。医学影像数据具有数据量大、数据类型复杂、规定保存时间长等特点。随着现代医学技术发展,医院的诊疗工作越来越多地依赖于现代化的检查结果。像X 光检查、CTB 超、胃镜肠镜、血管造影等医学影像检查的应用也越来越普遍,随之而来的就是医学影像数据的海量增长。同时,医学影像数据通常需要保存很长时间。随着医学影像存储与传输系统( picture archiving and communication system, PACS) 的发展与广泛应用,各大医院的各种医学影像数据已激增至数十乃至数百TB。这个数量仍在加速增长,不久就可能突破PB 级,对当前数据系统的存储和数据读写能力提出了巨大挑战。

由于在临床诊断和医学研究方面,对图像数据的分辨率和准确性都有着较高的要求,所以医学影像的图像数据通常比一般的图像数据更大和更复杂。来源于不同成像技术的图像数据之间差距极大,异构明显。医学影像信息的模式具有多态性,数据信息的多源性带来了其时序性和非时序性共存、数字型数据和非数字型数据共存的特点。医学影像信息的多模式特性是其区分于其他领域数据的最显著特性,也加大了医学影像数据的分析和处理的难度。同时,由于临床诊断或研究上的需求(如作为判断病情发展的依据或研究材料等),医学影像数据通常需要保存长达数年甚至更长的时间。


健康档案

健康档案从概念上来说,包括两个部分:面向社区健康管理的电子健康档案和面向个人用户的个人健康档案。两者的关系是,个人健康档案是基础,包含了个人一生中所有的健康信息;社区电子健康档案是汇总,是与区域疾病防治、区域医疗相关的健康信息。无论是哪种健康档案都具有以下三个特点:

第一个是具有持续、大量增长的特点。以健康档案必须收集的医疗数据为例,根据估算,中国一个中等城市(
1000 万人口)50 年所积累的医疗数据量就会达到10 PB 级。此外,健康档案需要收集个人的日常健康数据(如饮食习惯、生活习惯、日常生理指标等,可以从中预测个人的健康趋势,为个人提供有效的疾病预防建议),这方面的数据量会比医疗数据更加庞大。而如此庞大的数据量对数据的存储效率、查询效率也提出了更高的要求。

第二个特点是数据格式复杂,不容易整合。这些数据可能来自不同的医院、社区卫生机构、日常健康监测设备等。

第三个特点是,数据模式会根据时间的推移不断变化、演进。健康档案需要记录个人一生的健康信息。单以医疗数据而言,随着时间的推移,已知疾病的治疗方式会改变,新的疾病和相应治疗方式会不断出现,这些可能导致常规检测指标的内容和标准发生变化。而这一切将导致医疗数据模式的一致性无法保证。因此,一旦医疗数据模式发生变化,如何保持与原有医疗数据模式的兼容也是必须考虑的问题,否则无法正确使用原有的医疗数据。

此外,在收集日常健康数据进入健康档案时,如何保证数据的准确性、有效性也是建立健康档案时必须考虑的问题,并且也是一个很大的挑战。以测量血压为例,不同的姿势会导致血压的波动。当用户在家测量时,若能保证测量姿势的准确,也就无法保证测量数据的准确性;同时,就算测量姿势准确,若测量时产生情绪波动,也会导致血压变化。在这些情况下采集的数据都无法用于血压分析,是无效数据。因此在日常健康数据采集过程中,需要加入数据清理功能来过滤这些数据。

医学文献

现代科技与医学事业快速发展,医学模式发生历史性变化。传统的“生物医学模式”正在向“生物-心理-社会”
模式转化。医学涉及学科的急剧增加和细化造成医学知识的数量剧增,获得医学知识的重要性显得尤为突出。医学信息不仅成为重要的资源,而且成为医学界知识更新的主要来源和重要工具。医学信息资源占据约30% 以上互联网信息资源。医学文献的数量正以惊人的速度增长。据统计,全球医药类期刊近3 万种,每年发表论文200 多万篇并且以每年7%速度递增。例如:国际著名生物医学数据库 PubMed 的数据量达到近2000 万条记录,每年以60 ~ 70 万余条的速度递增;生物医学与药理学文献数据库Embase 的数据量达1100 余万条记录,每年新增50 万条。临床医生平均每天必须阅读19 篇专业文献,才可能跟上医学发展的速度。现代医学正面临“知识爆炸”的挑战,而这也带来了医学信息检索的复杂性。


大数据时代的医学伦理与数据安全

大数据隐私问题是不容回避的现实挑战。一方面,科学技术的发展对大数据的依赖越来越大,开源与数据共享已经成为生物学研究重要的驱动力量。但是,随着人们对隐私问题特别是基因组隐私
(genomic privacy) 问题的关注,将来对一些重要信息的访问可能会受到限制,例如个人基因组数据。另一方面,患者的参与度越高,生物医学研究项目成功的可能性越大。但是,如何让患者从中受益,如何进行利益共享是人们面临的一个问题。科研人员必须尽可能地找到保证患者隐私的方法,这样才能在大数据研究中获得公众的信任。解决这一问题的关键是:告知患者生物学和临床研究的进展可能给他们及其后代带来的利益和风险,并向他们解释为什么研究人员采集的高位数据无法完全地去除身份信息。患者通常会认为研究人员会保证他们的隐私不会被泄露,但实际情况是研究人员只能保证不主动泄露隐私信息,而被动地或不自知地泄露是非常普遍的。因此,患者应在允许科学研究共享其健康与医疗数据时被赋予更多的权利。立法机关应及时根据科学技术的进展制定法律,以保护个人不会因为个人隐私而受到歧视。2008 5 月,美国总统布什签署了一项法律——《遗传信息非歧视法》(Genetic Information Nondiscrimination Act ,GINA )。该法案的主要精神是,维护那些其遗传信息显示具有倾向于患有某种疾病(例如癌症或心脏病)的个人权利,反对歧视行为,这为我们提供了借鉴。


总结和展望

我们可以看到生物医学领域的大数据时代正在来临,其发展将促使我们尽快构建一个实时、便捷、全方位的医药领域研究与应用系统。在生物信息方面,我国还没有设立类似美国国家生物技术信息中心
(The National Centerfor Biotechnology Information, NCBI) 和欧洲生物信息研究所(European Bioinformatics Institute, EBI) 那样的机构,专门从事生物信息数据的管理、汇聚、分析、发布等工作。因此,国内的生物信息资源整合还有很多工作,面临很大困难。在医学信息方面,我国还主要处在对医疗流程的信息化管理、质量控制等初级阶段,尚未开展面对“大数据”的系统研究与挖掘。但这种研究与挖掘必将成为生物医药科学技术发展的趋势,未来的赢家必然是以大数据为核心的技术。大数据的到来,既对临床医生、医院、研究人员、医疗监管机构等都提出了巨大的挑战,也为生物医学研究带来了前所未有的机遇。如何有效地利用这些信息并最大程度地减少伦理相关问题对个人和公众的困扰,是亟待解决的重要课题。

 

 

 




本文引用地址:http://blog.sciencenet.cn/blog-449420-727311.html



生物医学遭遇大数据.docx

生物医学遭遇大数据

2013-02-27来源:中国科学报作者:王庆3030

收藏(0)

 

目前获取海量数据变得越来越方便,但一家机构与另一家产生的资料有很多差别,把这些信息集中分析时就需要一个共同的标准。标准化虽然艰难,但与会的业内人士普遍认为,当务之急是解决生物医学和信息科学兼通的复合型人才缺乏困境。

大数据时代正在深刻影响生物医学研究:海量数据需要在不同系统和机构间共享和分析,但因缺乏统一的标准而使研究者无从下手;信息技术和生物医学的结合更加紧密,两者兼通的复合型人才也明显缺乏。

面对如潮水般涌来的海量数据,如何更好地利用,成为了信息技术和生物医学领域共同面对的挑战。

大数据时代来临

2012年,美国政府发布了《大数据研究和发展倡议》,旨在利用大量复杂数据集合获取知识和提升洞见能力,投入金额高达2亿美元。

所谓大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助决策更积极目的的资讯。

218日至20日,由李嘉诚基金会出资举办的以信息技术与未来医学为主题的第二届与大师同行学术交流活动上,来自耶鲁大学、麻省理工学院与哈佛大学博劳德研究所、美国劳伦斯伯克利国家实验室、中国工程院等研究机构的国际知名学者,对大数据对生物医学的影响、大数据时代生物医学研究标准化困境和复合型人才缺乏难题进行了探讨。

中国工程院院士韦钰表示:生物医学正进入大数据时代,很多研究都是大数据研究、大数据存储,从大数据里面挖掘新信息。

她举例说,比如现在诊断某种疾病,医生可能需要调用患者的基因数据、从小到大的病历等大量数据。

深圳华大基因总裁汪建近日曾表示,大数据与大科学是未来生物经济发展的核心点。要解决当前生命科学的问题,需要从时空状态对生老病死进行解读,这就需要大数据。这种大数据揭示的就是大科学,从而衍生出大产业。

仅以深圳国家基因库为例,其中的样本量已达130万份,其中人类样本115万份,动植物、微生物等其他样本15万份。至2013年底,预计实现1000万份可溯源生物样本的存储,2015年底实现3000万份生物样本的存储。

而这仅仅是不断膨胀的大数据的冰山一角。

标准化困境

不同系统和科研机构之间难以实现标准化的数据共享和分析,这令很多科学家无所适从。

美国特拉华大学生物信息学和计算机生物学中心主任吴慧华表示,上述问题是生物医学与信息科学结合过程中遇到的关键难题。目前获取海量数据变得越来越方便,但一家机构与另一家产生的资料有很多差别,把这些信息集中分析时就需要一个共同的标准。

以对大数据需求最为迫切的医院为例。美国劳伦斯伯克利国家实验室基因组科学部主任鲁宾(Rubin)表示,理想状态下的目标是建立统一的电子病历系统,这些信息应该有统一的标准,但现实并非如此,各个医院存储的数据标准不同,而且不同系统存储的信息也不一样。

据吴慧华观察,目前在美国等国家,不同机构和资料库产生和存储的数据都是遵从不同的标准,标准化问题在业内尚未达成共识。

对于标准化之难,鲁宾解释道,数据量大并非关键,而是数据类型的多样性导致了难以统一标准。

他说,比如基因测序,虽然数据量很大,但属于同一类型,就比较容易在同一标准下进行分析,而生物医学方面的数据就困难得多,涉及血压、心跳等多种不同类型的临床和数字化信息,有些数据之间难以关联,这便造成了标准化的挑战。目前各个国家已经开始重视这个问题,信息科学和生物医学的学者需要更加紧密的合作。

在吴慧华看来,中国科学家应该积极加入国际标准的讨论、设计和制定中,更多参与国际上的生物医学信息共享。

复合型人才缺乏

标准化虽然艰难,但与会的业内人士普遍认为,当务之急是解决生物医学和信息科学兼通的复合型人才缺乏困境。因为两者结合过程中的标准化及一系列问题的化解,需要研究者对两个领域都有很深的造诣。

据与会专家介绍,目前鲜有高校主动设置生物医学和信息科学的交叉学科和院系,横跨这两个领域的复合型人才大多源自学者自发或在导师引导下的选修。

耶鲁大学医学院干细胞研究中心主任林海帆对自己的一位学生印象深刻。这位学生曾经主动提出关注生物信息方面的研究,当年很多老师以为他不务正业。最后他选择了兼修信息科学,现在已经是生物医学和信息科学兼备的稀缺人才。

我发现有的学生虽然选择生物专业,但其实很有数学天分,我们研究所信息部的主任就是这样培养出来的。林海帆表示。

吴慧华也是这种复合型人才的典型。她同时具备生物学和计算机科学教育背景,曾获台湾大学理科学士学位、美国普渡大学植物病理学硕士和博士学位,得克萨斯大学泰勒分校第二硕士学位(计算机学)。

为促进多学科研究和教育,她2009年在特拉华大学创立生物信息学与计算生物学中心(CBCB),由来自5个学院的60多名教师组成,并创立或负责多个生物信息学教育项目。

麻省理工学院和哈佛大学博劳德研究所副主任、首席信息官梅西罗夫(Mesirov)介绍,美国政府正在推动计算机科学和生物学等交叉学科的教育,从国家级科学中心的层面促进高中阶段的学生就开始学习交叉学科的知识。

这也许对中国会有所借鉴。

 

体内的大数据:DNA信息营销

2013-06-03来源:tech2ipo作者:张珑馨10611

收藏(0)

身体中的大数据:商家可利用消费者的DNA信息进行营销

商家根据你的消费爱好、年龄、收入以及社交网络的活动来判定你的购物喜好,从而做广告、推销产品。但是在未来,他们可能根据你的DNA信息来做广告。

你的基因信息中是否透露出你可能患有乳糖不耐症?商家根据这样的信息来向你提供舒化奶的优惠券。你的基因信息透露出你中年可能会秃头?商家广告可能会显示洗护用品的促销信息。日前,一家美国的创业公司Miinome计划打造全球第一个人类基因会员市场,换句话说就是向市场营销人员销售用户的DNA信息。

我们这个时代信息爆炸了,DNA数据自然也不例外。据预测,2013年全球约有25万人会花巨资对自己的DNA进行完整/部分测序。虽然25万人看起来不多,但是未来几年这一数字很快就将增至百万人。

Miinome计划采取会员制,采取电子数据的方式储存会员的DNA数据信息,然后由用户来决定自己数据的去留和使用情况。我们的会员可以把这些数据用在慈善、学术上,帮助福利机构和研究机构进行科学研究,降低科学研究成本。

然而,到目前为止,基于基因数据的大范围市场营销并不可取,不过不排除未来可能会发展出一片全新的营销领域。其中阻碍基因营销的原因之一就是DNA解码成本太高,不过目前基因测序的报价越来越低,不远的未来就可能普及。根据Miinome的计划,如果用户愿意把自己的DNA数据用作市场营销的话,用户就可以免费进行一次基因测序工作。

与此同时,网络广告模式也需要同步更新,或许网络广告公司需要提供一种全新的广告模式来分析用户的信息并做到绝对精准定位。Miinome的数据专家称像亚马逊、Twitter这样的消费级互联网企业将成为其主要的客户,因为这些企业具备雄厚的服务器运算能力、软件技术支持、数据挖掘和算法等资源。

除了上述问题,DNA数据分析并非易事,而且成本颇高,根据当前的技术,许多DNA信息的采集依旧需要手工完成。进一步说,虽然研究人员一直都希望能在疾病和基因缺陷之间建立直接联系,但是研究显示像糖尿病这样的疾病的起因是多方面的,其中就包括用户生活的环境。而用户的环境是无法通过DNA测序获得的。Miinome的研究人员说,除非我们能全部了解所有DNA数据,否则在此之前的营销活动都将相当困难。

旧金山的基因测序公司InVitae的资深管理人员说:如果我们只拿到了一点点精确的DNA数据,那可以说这些数据用处不大。

从科学研究的角度来看,利用基因数据进行营销的道路很难很长;然而在广告公司眼中,利用基因数据进行营销确实非常可行的。能利用基因数据把用户精准地引向商店或者餐馆,是家广告公司都会心动的。

了解更多:

Marketing to the Big Data Inside Us

In your DNA are clues to your health, your ancestry, and maybe even your purchasing preferences.

 

Nature:遗传学家推动全球数据共享

2013-06-17来源:lifeomics作者:邓棋霏4891

收藏(1)

国际性组织致力于促进数据交流,并将DNA序列信息和临床资料之间关联起来。

在基因组医学领域中存在一个令人头痛的矛盾现象,尽管人们普遍赞同临床医生与遗传学家应当交换更多的研究资料,但是很少有人采取行动来实现这一目标。

目前,来自13个国家的69个研究机构组成一个联盟,希望通过创建一个组织来促进基因组医学领域中信息的自由流通,从而解决以上问题。65日,这个自称为全球联盟的团队宣布,他们所创建的组织将会制定出一系列标准和政策,鼓励研究者对个体DNA序列及其临床资料进行数据共享。全球联盟的创建者以万维网联盟(World Wide Web Consortium)作为组织的模型基础;万维网联盟早在在20世纪90年代就制定了编程语言HTML的标准,刺激了互联网(Internet)中网页的快速发展。

马里达州贝塞斯达的美国国立卫生研究院(NIH)是全球联盟的成员之一;NIH的院长Francis Collins指出,如果这个联盟(即全球联盟)不采取有效行动,将会逐渐成为一个空谈。譬如,目前仍没有制定出基因序列的存储标准,也没有制定出基因序列准确性的评价标准,Collins列举道。

全球联盟也希望能够解决隐私方面和知情同意方面的问题,而这些问题是阻碍研究者共享数据的主要问题;同时他们也计划建立一个含有云计算平台和分析工具的网站,从而使研究者能够获取共享的数据。

而全球联盟所面临的一个大问题是:它是否能够说服研究机构分享它们最有意义的数据。美国加利福尼亚州拉荷亚的斯克利普斯转化科学研究所(Scripps Translational Science Institute)目前尚未考虑加入全球联盟;该研究所的所长Eric Topol是一名心脏病学专家,他表示,(全球联盟的)任务毫无疑问是非常有价值的。然而这就意味着要推倒一座座,这是非常棘手,因为你已经知道,每个研究中心都希望能够牢牢掌握住自己的数据,他们难以接受对自己的数据失去支配权。他补充道。

全球联盟的努力获得了一些世界上最具影响力的基因测序数据持有机构的支持,包括NIH、英国辛克斯顿的维尔康姆基金会桑格研究所(Wellcome Trust Sanger Institute),以及中国深圳的BGI中心(以前为北京华大基因研究中心(Beijing Genomics Institute))。马萨诸塞州剑桥市博德研究所(Broad Institute)的遗传学家David Altshuler是全球联盟组织委员会(由八人组成)的负责人,他特别希望能够纳入更多的成员。他说:我们想说的是,这(即全球联盟)比任何研究团队或研究机构的规模都要大——让我们弄清楚该如何把这个事情做好吧

随着DNA测序费用逐年下降,目前已测序的人类基因组的数量将会达到数百万。然而,只有将这些遗传学资料与临床资料联系起来,并让不同研究机构之间彼此分享各自的数据,研究者才能全面了解基因是如何影响疾病的。

然而,研究者通常都不太愿意分享这些来之不易的资料。有时候出于保护隐私的考虑,法律也不允许他们分享研究对象的资料。这就使科学家难以运用全世界范围内的数据来解答一些简单的问题,例如某个特殊的遗传变异是否能经常与某种疾病联系起来。

制定数据存储与共享的技术标准,是促使研究者能更方便地分享和分析基因组数据的必经之路。然而全球联盟也希望能通过制定匿名研究对象的处理方法,并规定哪些资料的安全性必须得到保障,从而克服法律上的一些障碍。不同研究机构的政策即便在其它非核心方面上存在差异,但是只要它们遵守同样的核心原则,那么也能够共享数据。

此外,全球联盟希望鼓励研究者开发出一系列工具,以允许患者维持对自己的医疗资料和遗传数据的支配权力。贝塞斯达美国国家癌症研究所(National Cancer Institute, NCI)的所长Harold Varmus建议研究机构应当跟踪自己的数据,使这些数据只能用于某些研究中——他指出这一步将会是非常重要的

基因组医学领域中一些主要的研究项目已经参与了全球联盟,但是其它研究项目尚未参与,而外部人员对共享数据的获取也受到了限制。之所以这样做,部分原因是为了避免隐私与安全方面的担忧,同时也是因为这些资料是一种非常珍贵的商品(见下图宝贵的数据)。

CollinsVarmus指出,将来诸如NIHNCI这类研究资助机构将会通过要求被资助者遵循全球联盟所指定的政策,从而促使更多的研究项目参与进来。桑格研究院(Sanger Institute)院长Michael Stratton指出,数据共享计划的成功将取决于全球联盟的说服力——它必须说服研究机构们:虽然放弃对一些数据的支配权,但却能获得对更多数据的访问权,这个交易是非常值得的。Stratton表示,他们都认为,数据共享将是获取最大知识量、造福人类的重要环节。

原文检索:

Erika Check Hayden. Geneticists push for global data-sharing. Nature, 06 June 2013; doi:10.1038/498017a

 

Nature:基因组分析拥抱云计算

2013-04-28来源:lifeomics作者:YORK/编译9772

收藏(0)

互联网新业务——测序数据分析:越来越多的生物信息公司开始走向网络,他们为医院提供了大量的基因组分析平台和软件工具。

对于美国纽约犹太人罕见遗传病研究中心(Center for Rare Jewish Genetic Disorders in New York)遗传咨询服务部门的经理Chaim Jalas来说,DNA测序实在是一件太简单不过的工作了。现在平均一个人的基因组测序(并非是全基因组测序,只是对其中比较重要的区域进行测序)费用还不到1500美元,但是后面的压力可让人吃不消,因为如果要招募人员、添置设备来对这些测序结果进行分析,找出其中的突变位点,那可是需要一大笔开销的。

所以Jalas决定将测序数据分析的部分业务外包出去,而且他只需要将他们中心客户的测序数据上传到网络上的云计算平台(cloudcomputing software platform)就可以了。这样他们中心就省掉了一大笔添置计算机和招募数据分析人员的费用,相当于为每名前来就诊的客户省下了100美元。而且Jalas还可以通过这套交互式的云系统与远在以色列的医生同行们及时交流,再也不需要像以前在网上传送数据资料时那样担心网速的问题了。Jalas对这套云系统的评价是,这套系统非常方便,大大地提高了他们的工作效率,而且还帮他们省下了大量的费用和时间。

Jalas及其采用的这套工作模式代表了一个全新的、尚未被充分开发的新兴市场,所以现在有一大批遗传数据分析咨询公司瞄准了这个市场,纷纷在网络上行动起来。他们最近(今年的319日至23日)刚刚参加了在美国亚利桑那州凤凰城召开的全美医学院遗传学及基因组学研讨会,其目的就是推广他们的网络遗传咨询业务。近两年里,随着测序技术逐渐走出象牙塔,走进我们每个人的身边,一下子冒出了好几十家这样的网络咨询公司。临床医生们也越来越习惯参考患者的基因组测序结果,并且以此来帮助确定诊疗方案,可是医生们却不愿意花钱购买分析设备,也不愿意雇人帮他们进行数据分析。

这是一块潜力巨大的市场。美国纽约Oppenheimer & Company投资银行的生物技术分析师David Ferreiro这样认为。 Oppenheimer & Company投资银行已经对多家测序技术公司和测序数据分析公司进行了投资。

哪里有需求,哪里就有市场,就有钱挣。这些咨询服务公司(其中绝大多数都位于美国硅谷)也正是受到了这个巨大市场的诱惑才投身其中。据美国马萨诸塞州BBC市场研究分析公司(BCC Research in Wellesley, Massachusetts)的估计,这块测序业务的外包市场到2016年时平均每年的市场规模将达到40亿美元。位于美国加利福尼亚州山景镇的DNAnexus公司(DNAnexus in Mountain View, California)是一家专门在互联网上提供遗传数据分析云服务的公司,客户可以自己将数据上传到DNAnexus公司的云计算平台里进行分析和运算。DNAnexus公司的CEO Andreas Sundquist认为,他们的这块市场潜力无限。

另外一些公司也提供了各种各样的其它服务。比如美国马萨诸塞州坎布里奇的Seven Bridges Genomics公司主要瞄准的就是毫无生物信息学背景的那一群人,把他们当作潜在的客户,为他们提供免费的工具,帮助他们设计自己的数据分析流程。美国加利福尼亚州红木市(Redwood City, California)的Ingenuity Systems公司则可以让用户将个人基因组中的所有突变全都上传到云系统里,然后公司会从中挑选出最有可能致病的突变位点。位于美国加利福尼亚州门罗公园(Menlo Park)的Personalis公司则主要为临床医生、制药企业和生物技术公司提供测序服务,以及测序之后的数据解析业务。就在上周,Personalis公司刚刚还和美国退伍军人事务部( US Department of Veterans Affairs)签订了一笔价值153万美元的合同,他们计划对100万名美国退伍军人的样品进行测序分析,找出其中的突变位点,并且探究这些突变与疾病之间的关系。不过Personalis公司计划将测序的业务外包给测序界大名鼎鼎的Illumina公司。

测序市场的潜在规模

这种测序咨询业务其实可以追溯到10年以前,当时生物信息学家刚刚开始第一波下海开办公司的热潮,可是绝大部分人都淹死在海里了,因为发现致病的遗传位点离开发出可以治疗疾病的药物还有很大的一段距离。不过美国加州大学伯克利分校(University of California, Berkeley)的计算基因组学家 Steven Brenner认为,今天的公司也有今天的问题。据Brenner介绍,他们目前最大的挑战就是要在不泄露公司知识产权的前提下证明他们公司的软件比免费软件更优秀。据Brenner介绍,为了达到这个目的,这些公司都得费尽心机。

同时测序技术公司也要来分一杯羹。 Illumina公司在去年就发布了一款名叫 BaseSpaceAPP应用,客户可以将数据上传到Illumina公司的云计算平台上,然后从 BaseSpace中挑选合适的分析工具对这些数据进行分析。信息技术公司也加入了这场竞争。美国加利福尼亚州的甲骨文公司(Oracle)也开发了一款产品,旨在帮助临床医生和科研人员对测序数据进行分析。

但是最大的问题还是这些遗传咨询服务公司能给我们的医学发展带来多大的帮助,尤其是在今天这种患者的隐私至上的大环境下。一旦病患的隐私有所泄露,医院就会受到重罚,所以医院里的遗传咨询师还真不敢随随便便地往云里上传患者的个人资料。美国威斯康辛医学院人类分子遗传研究中心人类基因组信息部门(genomic informatics at the Human and Molecular Genetics Center at the Medical College of Wisconsin in Milwaukee)的负责人Elizabeth Worthey就指出,他们出具的临床检验报告上写着的可都是他们自己的名字,盖着的可都是他们实验室的签章。据Ferreiro介绍,这也是很多大医院决定自己建立测序分析中心的主要原因。

为了解决这个隐私问题,美国加利福尼亚州红木市的Bina Technologies公司就提供了平台搭建服务,他们可以帮客户建立自己的数据处理中心,并且根据客户的需求帮助他们开发基因组数据分析软件和工具。美国加利福尼亚州坎布里奇的Knome公司也在去年宣布,他们计划推出价值12.5万美元的基因组分析仪,帮助客户建立自己的基因组分析中心。

基因组分析市场是一个非常庞大的市场,任何一家公司都不可能独占这个市场,而且这个市场的需求会越来越大,大家的需求也会越来越多元化。Sundquist就表示,他希望这个市场呈现出一种百花齐放的景象,Sundquist可不希望最后变成一家独大、一潭死水的局面。

原文检索:

Erika Check Hayden. Gene-analysis firms reach for the cloud. Nature, 21 March 2013; doi:10.1038/495293a

 

Nature:基因组数据泄露不可避免?

2013-06-20来源:biodiscover作者:koo4991

收藏(1)

现在的问题不在于如何防止泄露,而是如何降低泄露程度。

日前,《Nature》网站专栏作者、加州大学伯克利分校的遗传学教授 Steven Brenner 发表评论文章,认为随着基因组学的发展,在未来基因组信息的泄露是无可避免的,同时他还描述了信息泄露的危害以及如何尽量降低泄露带来的危害。

Steven Brenner 的研究方向主要涉及计算与实验基因组学。

全文如下:

对于那些将自己的基因组存放在某个研究数据库中的人,大多数美国人要不了多久就会认识他们了。人们对于如何有效控制对这类信息访问的担忧正在日益增长,而科学家们认为限制访问遗传数据会阻碍研究的担忧也同样在增长。距离某个理想主义型的研究者以公开科学的名义而故意向公众公开基因组信息的日子会很远吗?

开放获取文献和开源软件运动都是由理想主义者发起的。在不久的将来,重大的基因组信息泄露事件似乎变得无法避免了。科学家、研究机构以及科研资助方现在就应该考虑,当这一天到临时该如何应对。

在一些研究中,一个单一的分析就已经可以收集到超过50000人的遗传信息。尽管这些信息本该得到严密保护的,但是可以获取这些信息的不同研究机构采用了并不统一的安全与隐私标准。在实际操作中,数据保护工作实际上会落到具体的科学家身上。一旦泄露,这些数据几乎是不可能在受控了。

那么个人数据与遗传数据的泄露会带来什么样的危害?个人基因组项目(Personal Genome ProjectPGP)的知情同意书提供给了一个指南。在上面列出了一系列的不良后果,包括泄露个人并非当前父母亲生等个人隐私,以及个人遗传信息被合成后被放在犯罪现场用于栽赃等。

大多数的研究性数据库中的信息都是匿名的,但是随着将这些数据重新与个人信息对应起来,以及商业遗传数据库的发展,事情还会这样吗?被破解匿名状态的遗传信息最有可能泄露与研究相关的个人健康状况。泄露带来的影响可能令人不快,不过泄露信息的量可能并不会比你的上网历史记录所能泄露的多。到目前为止,还没有PGP的参与者向伦理委员会报告因为公开基因组及其他信息而遭受不良后果。但是从长期来看,随着我们对遗传变异理解的深入,风险将会上升。

如此一来可能会引发有关侵犯基因组的舆论哗然。公众常常会夸大对基因与个人信息之间关系的认识。由于不懂相关的知识,研究的参与者会怀疑自己的基因组是否已经被泄露,并开始担心那些自己都想象不到的恐怖后果。

这样,基因组泄露可能导致巨大的反弹。志愿者会退出研究,再也不会参加新的研究。研究工作可能会遭遇暂停和禁止性限制。这对遗传学研究的伤害是巨大的。

那怎么办呢?有两个极端的方案因为简单而颇具吸引力。一个方案就是研究项目对那些一开始就不受限制的数据进行整合。这个方案由于其确定性以及所带来的研究优势,而会被广泛采用。但问题是会有那么多人愿意公开共享自己的信息吗?第二个方案则是对基因组进行严密的封闭,使其几乎无法泄露,所有需要利用这些数据的人都只能通过中央计算机的受限界面进行分析利用。这个方案看起来也不错,但是它所提供的对数据访问的方式具有排外性,因而可能会阻碍研究,同时它还容易诱发对遗传数据的不当利用。

由于这两个方案的都不是完全可行,也就意味着所要解决的问题不是如何防止信息泄露,而是如何降低泄露后的影响。这需要些具体的步骤,以及在观念改变上的进步。

研究资助机构应该建立快速反应机制,一旦信息泄露后可快速通知研究参与者、政府以及媒体,并向受影响者提供有关影响范围及后果的可靠知道。这可能需要重新联系那些研究参与者并警示他们哪些人的数据已经泄露了,同时抚慰那些数据未被泄露的人。此外,还需开展有关此类泄露可能带来的危害的研究,以便更好地在泄漏发生前后通知并保护研究参与者。

同时我们还应该采取措施将未来基因组泄露的频率及程度降到最小。研究所可以建立统一的协议和评审机制以全包受保护的遗传信息的安全。所有需要使用受限遗传信息的研究者都应该接受有关人类数据保护相关的伦理及技术培训。积极部署技术及法律策略,用于限制已泄露数据向那些试图窃取这些信息的人。

增强法律保护有助于降低对此类数据滥用而带来的危害。同时,我们还需要解决一个窘况:利用泄露的数据毫无疑问也会加快科学的进程,但是科学家可以利用这些泄露的数据吗?

最重要的是,我们必须确保在讨论基因组信息泄露风险的时候不能忘了遗传信息收集所带给我们的巨大利益。尽管基因组学的加速发展及其前景使得泄露是无可避免的,但是它也是医学发展的保障。

延伸阅读:

DNA序列公开化挑战隐私保护

基因研究不应侵犯个人隐私

原文检索:

Steven E. Brenner. Be prepared for the big genome leak. Nature, 13 June 2013; doi:10.1038/498139a

 

deCODE 数据挖掘计划泡汤

2013-06-30来源:中国科学报作者:koo1770

收藏(0)

因采集冰岛人 DNA 用于发现基因和疾病之间关系而著名的基因解码公司遇到了一个棘手问题。

Science》杂志报道,冰岛负责监督数据保密性的国家机构驳回了基因解码(deCODE)公司的请求——该公司希望可以使用计算机方法分析该国的宗系记录,以估算 28 万名并未同意参与该公司的研究,且将数据与医院记录相连接的冰岛人的基因型。

在创始人兼首席执行官 Kári Stefánsson 的领导下,基因解码公司成立于 2006 年,该公司合并了冰岛广泛的含有基因数据的宗系记录以及所有居民的健康档案,以便发现致病基因。

由于未能得到法律许可以使用未经同意的健康档案,基因解码公司转而使用 12 万多名志愿者的 DNA 和临床数据建立了一个研究数据库。该公司目前已在顶级期刊上发表大量论文,指明特殊的基因突变带来致病风险,但是它也面临破产风险。 2012 12 月,美国安进(Amgen)公司以 4.15 亿美元的价格收购了基因解码公司。

结合已知和已估量的基因型,基因解码公司预计,研究参与者近亲的所谓电子基因型,在本质上可以为该公司提供 32 万冰岛人的基因型。

之后,该公司使用这些估算的个人基因型作为对照组用于研究,并将这些数据与那些参与冰岛疾病研究但没有 DNA 取样的病人的健康记录相连。在过去的 2 年里,基因解码公司使用这种方法在《自然》、《自然遗传学》等期刊上发表了 6 篇论文。

但是日前,冰岛信息保护局(DPA)规定,如果基因解码公司想继续该策略——收集研究参与者的 28 万名活着和死去的亲属的基因型,并将数据与医院记录相连接,则必须获得亲属的知情同意书。

原文检索:

Jocelyn Kaiser. Agency Nixes deCODE's New Data-Mining Plan. Science 21 June 2013; DOI: 10.1126/science.340.6139.1388

·         期刊Science

·         标签deCODE数据挖掘

转载需注明原文出处:http://www.bio360.net/news/show/5880.html

 

 



https://wap.sciencenet.cn/blog-280034-704188.html

上一篇:国内外科研动态 7月1日
下一篇:北京已连续四天无法出门 6级严重污染
收藏 IP: 60.10.69.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 03:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部