Neil反面教材☆凤雏先生分享 http://blog.sciencenet.cn/u/dabaoski 鸿鹄焉知燕雀之志? 人贵没有自知之明!

博文

【科学网】关于文章抄袭检测软件是否靠谱 精选

已有 11307 次阅读 2010-9-13 18:35 |个人分类:科学网评|系统分类:科研笔记| 评论, 反面教材

科学网的曹广福老师写了一篇《张月红女士的文章是极其不负责任的》,首先全文转载,然后发表本人评论:
 
一直不敢张口,因为不了解到底怎么回事,在阅读了众博友的文章后知道原来是张月红
主任根据一个监测软件得出结论:《浙江大学学报》(英文版)存在31%的抄袭现象,而这个软件主要是以语句的相似度作为检测标准。在我阐述自己的观点前先试拟几个数学命题,请大家模仿那没有思想的软件监测一下,他们的相似度如何。下面三个命题讲的是素有“泛函分析”中的哥德巴赫猜想之称的不变子空间问题,其中命题1在上个世纪60年代由Enflo用一个反例证明,第二个命题迄今悬而未决,如果谁能证明或否定了它,相信他不仅可以在中国的数学界“作威作福”,还可以成为国际数学界笑傲江湖的人物。至于命题3,只要熟悉一点泛函分析基础知识的人都不难看出它在说啥。

命题1存在Banach空间上的有界线性算子,它没有不变子空间。

命题2存在Hilbert空间上的有界线性算子,它没有不变子空间。

命题3假设X是完备的赋范线性空间,则存在X上的连续线性算子T,使得对X的任意子空间M,TM都不包含在M中。

即使用英文表达,命题1与命题3相似度也一定不会高,至少没有命题1与命题2的相似度高,事实上,我把命题1COPY下来然后改了几个英文字母便得到了命题2,典型的“抄袭”。然而,如果谁认为命题2有剽窃命题1的嫌疑那真是滑天下之大稽了。众所周知,完备的线性赋范空间即所谓的Banach空间,在Banach空间中线性算子的有界性与连续性是等价的,所以命题1与命题3说的是同一件事。也就是说,相似度不高的命题1与命题3是同一件事的不同表述。这几个命题应该可以说明软件具有相当的不可靠性。

现在我想请教张月红女士一个问题:你们除了利用那个该死的软件监测,有没有其它的佐证?比如,是否将你们监测认为有剽窃现象的论文抽样几十份或几份出来请相关专家评审从而判定有没有剽窃或抄袭嫌疑?如果没有做,你们凭什么认定那个软件所得到的结论是真实的?剽窃的指证不是个小事,何况是捅到国际头号杂志之一的《Nature》上去了。一个没有经过可靠性检验的软件怎么能成为你很可能给你们自己的杂志特别是你们的作者造成巨大影响的论文的依据?由此可见,张月红女士撰写的这篇文章不仅可能让他们自己的杂志蒙羞,更可能是对包括浙江大学在内的广大投稿人的极大的不负责任。我之所以用了两个可能,原因在于在事实澄清之前,谁都不能妄下定论,尽管向该刊投稿的作者个人很难追究张女士的责任,因为31%并未指名道姓,但毫无疑问张女士此举会令所有向该刊投稿的作者寒心,因为她没有指名道姓等于针对了全体作者。我认为张女士应该完善她的研究,将她认为有抄袭或剽窃嫌疑的论文做进一步的抽样评审,看看软件是否真的可靠,也好给作者们一个交代,更是给中国学术界的一个交代。

洋鬼子们从来就没有对中国存什么好心,他们自己不吃他们制造的转基因食品,给你中国人吃。只要是暴露中国阴暗面或落后的东西,他们就一往情深地大加褒奖,张艺谋先生的导演水平不容置疑,我也很喜欢看他的电影,可他在国际上得奖的作品大多是什么题材的?网上一搜就知道了。张月红女士把自己刊物的一件算不上光彩的事情在《Nature》上曝光也许是冲着该杂志的名声去的,却没有想到被聪明的编辑忽悠了一把。不管事实的真像如何,我赞同某些博友的观点,自己家的事何不在自己家解决?家丑外扬除了为国际学术界增添点娱乐素材还能有什么更大的作用么?

——————————————————————————

Neil反面教材:

对于张月红老师和Nature编辑的问题,我另外写文章评论,就不在这篇里写了。看完曹老师这篇,我觉得他主要的质疑还是在文章抄袭的检测软件是否可靠这个问题上,所以这篇里我主要说说这个问题。

一、曹老师显然不了解文章抄袭的检测软件的工作原理,说实话我也不了解,所以也许在这个问题上我们首先需要大拿来科普,把软件工作原理的细节弄清楚再评论。


二、不过在细节弄清楚之前,有几个小问题是可以明确讨论的。

1、曹老师在上文中举了几个数学命题的例子,就是这一段:

【在我阐述自己的观点前先试拟几个数学命题,请大家模仿那没有思想的软件监测一下,他们的相似度如何。下面三个命题讲的是素有“泛函分析”中的哥德巴赫猜想之称的不变子空间问题,其中命题1在上个世纪60年代由Enflo用一个反例证明,第二个命题迄今悬而未决,如果谁能证明或否定了它,相信他不仅可以在中国的数学界“作威作福”,还可以成为国际数学界笑傲江湖的人物。至于命题3,只要熟悉一点泛函分析基础知识的人都不难看出它在说啥。

命题1存在Banach空间上的有界线性算子,它没有不变子空间。

命题2存在Hilbert空间上的有界线性算子,它没有不变子空间。

命题3假设X是完备的赋范线性空间,则存在X上的连续线性算子T,使得对X的任意子空间M,TM都不包含在M中。

即使用英文表达,命题1与命题3相似度也一定不会高,至少没有命题1与命题2的相似度高,事实上,我把命题1COPY下来然后改了几个英文字母便得到了命题2,典型的“抄袭”。然而,如果谁认为命题2有剽窃命题1的嫌疑那真是滑天下之大稽了。众所周知,完备的线性赋范空间即所谓的Banach空间,在Banach空间中线性算子的有界性与连续性是等价的,所以命题1与命题3说的是同一件事。也就是说,相似度不高的命题1与命题3是同一件事的不同表述。这几个命题应该可以说明软件具有相当的不可靠性。】

在这里我必须指出,曹老师是学数学的,这个专业在这个问题上有一定的特殊性。其特殊性就体现在数学的严谨性。

现在如果我文章的读者有自己的书柜,并且书柜中有数学书的话,大可翻出来看看,就像我现在从我书架上拿下来的几个不同版本的数学分析书,这几本书是不同国家不同学校的人写的,但是当你读过这些书,你会发现书中定理的表述语句非常相似,所使用的词汇和语句基本上完全相同。

为什么呢?因为这是数学。数学是一门逻辑上和语言上都非常严谨的学科。在数学专业,无论是教材还是论文,其定理的表述,符号和词汇的使用,语句的构造,基本上都有固定的范式。所以仅从语言上来判定两篇数学论文是否互相抄袭几乎是不可能的。


2、然而,但是,可是,物理学,生物学,化学,材料学,等等其它专业,情况则和数学专业有很大的不同

比如在物理学上,我们在论文中可以使用完全相同的哈密顿量,但我们写出的论文却不可能像数学论文一样大规模雷同的语句。

为什么?因为物理学在语言上并不像数学那样在符号和词汇使用,语句的构造方面有严谨的范式和严格的要求。

在数学上,IF AND ONLY IF,它就是IF AND ONLY IF,你就是把它翻译成中文也要严格的按照字面翻译成当且仅当。

可是物理不一样,同样一句话,怎么说都行,只要大家都能看懂,就没有人会挑刺。

所以两篇物理论文,如果只是哈密顿量一样的话还情有可原,但如果使用的语句也大规模雷同,那这种情况的出现就绝对不是巧合,至少是故意而为之。

从这个角度讲,采用语句相似度识别的软件至少在物理学论文抄袭判定中有很好的准确度。

至于生物、化学、材料学等学科,由于和物理学科联系密切,我认为我的观点是可以适用的。对此有异议的欢迎发表看法。

3、一篇论文,是否是抄袭的,这并不是很容易判断的事。理想的说,只要文章的作者足够狡猾,文章抄袭的手法足够隐蔽,发表的文章又不至于过分卖弄风骚而被别人注意,那么在他有生之年不被查出来都是有可能的事情。

但是,实际上并不是那么容易做到这一点,抄袭一篇文章并且把文章做得别人绝对看不出来是抄袭的,作者在这方面下的功夫恐怕比自己写一篇文章要多得多。所以大部分抄袭的文章多多少少是有明显的瑕疵的。

在这个前提下,引入检测软件来利用文章语句的漏洞辨别文章,我认为是可行的,同时在某种尺度上也是可以起到文章过滤的作用的。

4、有人可能会担心检测软件的误判,担心这种软件会冤枉好人。其实这个问题非常好解决,你只要引入“补充机制”就可以。

一旦某作者的文章被检测软件认定为抄袭,我们可以保留他申诉的权利,他可以向文章审核机构提出异议,在他提出异议后,可以由相关机构组织评审专家对其文章是否抄袭进行评定。

这样就会充分保障作者的权利。

5、从以上各点看,我认为引入检测软件是可行的,靠谱的,如果再引入相应的补充机制,那么就可以使得文章抄袭的检测工作向前迈一大步。

也许即使引入检测软件也不能完全保证没有漏网之鱼,但至少它节省了大量的人力,给造假者增加了抄袭文章的难度,这无论如何都是一种进步,你说呢?

6、我们都是靠科学吃饭的,所以我们更应该相信科学与技术。十几年前说起用电脑开门开灯,大家都说不靠谱,可是现在让电脑做饭看孩子恐怕都不算新鲜事了,科学在进步,我们的思想也应该随之进步。就像某位老大说的,要与时俱进嘛。

四、从这个角度讲,张月红女士的信以及Nature编辑对题目的加工,都可以看做是抄袭文章检测软件的广告,这整个事件所引起的广泛关注,对抄袭文章检测软件在学术界和媒体圈广泛应用将起到良好积极的推动作用。

所以,我倒不觉得张月红女士的文章是极其不负责任的,相反,我认为她的文章是有很大的积极意义和作用的,你觉得呢?



中国期刊投稿31%剽窃?
https://wap.sciencenet.cn/blog-200147-362711.html

上一篇:【科学网】“31%”与“讳疾忌医”
下一篇:歇会儿
收藏 IP: .*| 热度|

15 刘全慧 王桂颖 任胜利 陈儒军 曹广福 朱志敏 刘红超 曹聪 任国鹏 刘颖彪 金小伟 王启云 孔晓飞 侯振宇 nm

发表评论 评论 (10 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-2 01:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部