我们知道,基因序列的改变能导致表型发生改变。新冠病毒所以难以免疫预防,就是因为RNA稳定性差更容易发生突变。那么基因研究特别是PCR被发明后的已经成为生物医学研究的最常规技术。今天的生物医学研究论文不做PCR的论文已经很少见了。但是如果基因序列出现错误,那么研究的结果可能会不准确。出现这种错误的原因可能很多,许多研究基因的学者对基因序列并不太了解,甚至不会愿意了解,因为基因序列是相对低维度的信息,人类的大脑对这些信息实在太难记忆了。在研究中使用基因信息主要依靠基因库和认真对比各种序列,但真正研究过程,很少人去操心这些细节。有学者专门对过去的基因研究进行分析,发现这种错误的情况比较多,估计存在更大规模的这类错误。这一研究可能意味着随后会有大量基因序列错误文献被标注。一场大规模错误信息文献将会出现。
Highly cited genetics studies found to contain sequence errors (nature.com)
根据对两本高影响力期刊上癌症遗传学论文的分析,已发表的基因研究中错误的普遍性可能比以前认为的更为普遍。
通过梳理数百篇论文的补充信息,由澳大利亚悉尼大学的癌症研究员Jennifer Byrne领导的研究小组发现了一些高引用的研究,这些研究包含试剂的DNA或RNA序列错误。科学家出于各种原因使用这些试剂。例如,研究给定基因或基因序列在疾病中的功能 - 如果序列被错误地报告,可能会影响研究的可重复性。
目前尚不清楚这些错误是偶然的还是表明不当行为。该研究于最近发表在预印本服务器bioRxiv上。该手稿尚未经过同行评审。一些研究人员还质疑单个核苷酸水平的错误可能在多大程度上影响论文的结论。然而,大多数人都同意科学文献中存在此类错误令人担忧。
“看到这些错误当然令人沮丧,”德克萨斯州休斯顿贝勒医学院的分子生物学家Jeremy Wilusz说。“如果这只是一个报告问题或更大的问题 - 我不知道 - 但它不应该发生。
Byrne和她的团队自从2015年发现一些关于这个问题的论文以来,此后数年一直在科学文献中寻找基因序列中的错误。2021 年,Byrne 和她的同事使用 Seek & Blastn 分析了《基因与肿瘤学报告》杂志上的近 1.2万篇论文,这是一种软件工具,可以提取论文中提到的短核苷酸序列,发现潜在错误,并将其与称为 BLASTn 的公共核苷酸数据库进行交叉检查。他们发现了700多篇论文,报告了RNA或DNA序列中存在错误的实验试剂。(按照这个比例7/120,大约6%的论文存在基因序列错误!)
在最新的研究中,该团队希望调查具有相对高影响因子的期刊,一种基于引用的衡量标准,被一些人用作期刊影响力和声望的代表。“可以说,人们更关注的是影响因子较高的文献,”伯恩说。
研究人员专注于发表在两本期刊上的癌症遗传学论文: Molecular Cancer 分子癌症和Oncogene,在以前的分析中他们发现这些杂志文章的一些序列不正确 。Byrne和她的同事对2014年、2015年和2018年发表的2020篇分子癌症论文中手动筛选了声称靶向未修饰的人类基因或基因组序列的试剂。(由于论文中的核苷酸序列试剂是在补充文件中报告的,而不是正文,因此该团队无法使用Seek&Blastn工具。
研究小组在分析的6647个序列有253个核苷酸序列存在错误,大约占8%。334份手稿中92份手稿存在错误,有问题序列的中位数为每篇论文2个。存在核苷酸序列错误的论文比例从2016年的10%到2020年的38%不等。2020年有错误的论文比例是最大的惊奇。Byrne说。“我们没想到会这样。”
对于Oncogene的论文,该团队进行了更有针对性的搜索,确定了2020年发表的论文,其中包含环状RNA或microRNA(与研究人员在《分子癌症》中发现的论文相关的术语)。在他们筛选的1165个序列中,有50个包含错误。分析的42篇手稿中发现21篇论文存在错误。
“我们都知道这种情况会发生,但我对问题的严重程度感到惊讶,”比利时根特大学的癌症研究员Jo Vandesompele说。他补充说,环状RNA研究中存在一些已知问题,例如环状RNA序列的不完整和不一致的数据库,这可能会使这些类型的问题更容易溜走。
Byrne团队标记的论文被高度引用:92篇分子癌症论文被引用8048次,21篇癌基因论文被引用878次。其中一些论文被引用了100多次。
Byrne承认,分析中标记的一些错误可能是无意的。其他研究人员指出,一些错误也可能对论文的整体结论几乎没有影响。一些人告诉《自然》杂志,序列的一两个核苷酸变化并不一定会使试剂完全功能失调,在某些条件下,它可能仍然适用于常用的实验室技术,如聚合酶链反应(PCR)。
德国海德堡欧洲分子生物学组织科学出版物负责人Bernd Pulverer表示,无论错误的来源如何,它们在已发表文献中的存在都是一个问题。“错误是有害的,因为人们不能依靠这些论文作为未来研究的基础,”他说。
伯恩和她的团队说,许多错误的性质使他们看起来很可疑。他们发现,一些声称靶向人类基因或基因组序列的试剂在人类基因组中没有可识别的靶标,而是一些靶向其他物种的序列,如啮齿动物、植物和真菌。(这就无语了,其含义就是人类没有的基因,竟然也能在人体进行研究。)
“他们与预定目标没有完美的匹配,这绝对是非常令人担忧的,”Vandesompele说。他补充说,尽管研究人员可能能够使用具有一两个错误的试剂通过PCR扩增序列,但这些错误可能会损害试剂的选择性或特异性,并且“这只是常识”不设计不匹配的试剂。
Byrne说,另一个需要考虑的因素是,大约三分之一的分子癌症论文和大约四分之一的癌基因论文也被确定为有错误,也在发表后的同行评审平台PubPeer上被标记,主要是因为单独的图像完整性问题。
“这两本期刊的主编和施普林格·自然(Springer Nature)都同意伯恩教授的观点,即确保出版记录的完整性至关重要,我们非常重视对期刊上发表的论文提出的问题,”施普林格·自然研究诚信总监克里斯·格拉夫(Chris Graf)说。“一年多前,我们要求提供这些问题的详细信息,以便我们可以调查它们并在适当的时候采取行动,但它们才刚刚提供。现在我们确实有了它们,我们能够开始全面调查。他补充说,“如果事实证明担忧是有根据的,我们将采取行动。
格拉夫说,已经调查了 2021 年分析中标记的两篇分子癌症论文,尽管在验证了两个试剂序列中的印刷错误后纠正了其中一篇,但第二篇论文中标记的“错误”结果与预期的基因和物种相匹配。伯恩断言他们仍然是不正确的。
转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。
链接地址:https://wap.sciencenet.cn/blog-41174-1375780.html?mobile=1
收藏