博文

让论文造假者裸奔的反抄袭图像识别系统精选

已有 7786 次阅读 2018-2-24 10:52 |系统分类:海外观察

对文字抄袭早就有了自动化技术，而且也被广泛使用，但是对图片的重复使用则很难进行辨别，尤其是使用者一般会对图片进行PS，实在是防不胜防。但是借助最新的图像识别系统，科学家建立了新的图片识别方法，能对经过故意编辑使用的图进行辨认，让许多人工无法辨别的重复用图无法继续骗人，这几乎必然地会发现千万篇论文被曝光于天下，许多人开始无法入眠了。根据初步研究，大约0.6％的论文存在图片造假的可能，那么每年250万篇学术论文会大约1.4万篇存在图像造假的。

https://www.nature.com/articles/d41586-018-02421-3

最新论文是发表在2月22日的论文预印本服务器BioRxiv上，纽约雪城大学Daniel Acuna（库尼亚）机器学习团队通过使用一种算法来处理成千上万的生物医学论文，可以识别出重复使用的图片。如果杂志编辑也采用类似方法，将会让许多论文因为这个问题被阻断在发表的过程。

目前作者并没有公开算法，不过研究小组已经和西北大学诚信办公室主任Lauran Qualkenbush进行过交流，他们考虑使用这个技术。另外和美国研究人员协会诚信副主席进行了沟通，有可能年内进行应用测试。

2015年初，库尼亚和两个同事使用一种算法，从PubMed数据库开放的760000篇文章中提取到超过260万份图像数据，数据包括显微细胞和组织和凝胶印迹。然后放大这些图片中最具有特征的部位，这些部位都是颜色和灰度变化最明显的部分，利用这部分信息制作每一个图像的数字指纹。将图片中标记箭头或流程图组件去除，团队获得了200万份左右图像。为避免比较所有图像，他们用论文第一和通讯作者为限制条件，对这些图像资料进行了对照分析，他们的方法能识别出经过旋转、调整大小、对比度或颜色等编辑的重复图像。然后手工验证3750的被标记图像的分析结果，这些图像被认为存在复制的可能性。根据他们的研究结果，数据库中大约1.5%的论文包含可疑的图像，0.6%的论文将包含造假图像。

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://wap.sciencenet.cn/blog-41174-1100988.html

上一篇：美国学者调查发现，适量饮酒和长寿有关
下一篇：高血压的免疫治疗

收藏 IP: 183.192.35.*| 热度|

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

让论文造假者裸奔的反抄袭图像识别系统精选

当前推荐数：11 推荐人：李久煊 赵凤光 柳林涛 王启云 黄永义 周春雷 牛丕业 杨正瓴 张云扬 shenlu liyou1983

该博文允许注册用户评论请点击登录评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

让论文造假者裸奔的反抄袭图像识别系统 精选

当前推荐数：11 推荐人： 李久煊 赵凤光 柳林涛 王启云 黄永义 周春雷 牛丕业 杨正瓴 张云扬 shenlu liyou1983

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

让论文造假者裸奔的反抄袭图像识别系统精选

当前推荐数：11 推荐人：李久煊赵凤光柳林涛王启云黄永义周春雷牛丕业杨正瓴张云扬 shenlu liyou1983

该博文允许注册用户评论请点击登录评论 (0 个评论)