饶毅
中国的学术评价亟待改进
2013-2-7 18:42
阅读:21532
中国的学术评价亟待改进
----个例反映重要的普遍问题及其解决办法

       中国不是现代科学的发源地,评价科学工作也非中国熟练的长项。

       在科学奖励和荣誉方面,我国出现比较奇怪的现象。比较国际上,我国科学成就不如美国,奖项却多于美国。比较国内情况,我国重要的科学工作被忽略、原创性学者被埋没,体制性问题导致一些人常被要求评价超出其理解能力的工作。
       这些现象并非简单的历史问题,而可以影响年轻人的走向。在我国有越来越多重要科学工作的情况下,以幼稚的方法评判重要的工作可能带来超出个人的负面影响。
       需要改进我国的科学评价体系、改善我们社会的文化习俗,根除我国目前通常不负责任、表面化和情绪化的评价,改革一些部门工作的改革,使成长中的科学人才避免被浮燥影响,坚持重科学实质的正道。
所以,在目前的情况下,公开讨论和评价重要科学工作,对我国改进学术评价是有意义的。
 
科学奖的问题
       1)目前,中国的科学在质和量都还落后于美国,但中国科学的奖项多于美国。中国在国家层面有多个奖项(国家最高科技奖、国家自然科学几等奖)、还有部委(科学院和教育部内部)、地区(省市)、和各专业协会的奖项。美国国家科学奖每年只有10人、部委和地区极少奖项,而奖项主要都在专业学会内部。奖太多了并不能刺激科学发展,可能还有害处:有些单位热心谋求奖励带坏风气。
       2)中国的奖项和荣誉经常跨专业,而科学发达国家很少跨专业的奖项。中国的国家奖项、科技部的奖项、科学院和教育部的奖项、各省市的奖项全部是跨专业的,评审时绝大多数评委绝大多数时候都不能把握所评的内容、且常常不懂。诺贝尔奖分专业,美国国家科学奖虽然跨专业,但其评审过程是分专业,国家决定不同专业的比例,并无人进行跨专业评价。其实,除了极少情况,世界上多数时候无人有能力进行跨专业评价。跨专业评价的结果导致国内很多人不追求真正的质量,而是想方设法忽悠外行。
       3)我国的荣誉和奖项绝大多数是个人自荐、或本单位推荐。这样助长中国科技界自吹自擂,也导致一些年轻人很快学会在各种场合给自己评功摆好,而不是进行交流学术。在一次学术会议上,我曾忍不住请一位年轻人停止用PPT叙述其他人对他工作的评价,而谈学术本身。单位推荐还导致单位竞争,出现一些恶劣的情况。国际上,被推荐者不参与、常常不知情。我参与过几次推荐,一直到被推荐者获奖后,获奖人与我都无交流。
       4)我国的绝大多数奖项和荣誉评价或评审时间过短。评价者通常事先没看过资料,需等到评审会临时读材料、听答辩,而在多数评审者非同领域专家的情况下,多半无从立即进行评判。国际的奖项和荣誉绝大多数事先有材料,评价者可以查文献、思考,在参加评委会讨论时已经有准备,讨论也就比较充分,解决疑难问题。
       5)我国评价过程不仅在责任心、尊重事实、评价水平等方面有问题,而且常常情绪化。毫无疑问,青蒿素是我国过去一个世纪在医药方面最突出的工作,而即使在因为获得Lasker奖而创中国获国际奖记录的情况下,屠呦呦及523其他主要人员仍未获国内任何奖项。中国人好内斗而两败俱伤,官方评价体系无序、过分在意矛盾而不能撇开情绪进行客观评价。如果有很好的评价体系,就应该无论他们如何矛盾,屠呦呦和523一些代表性科学家都应该获得中国多个奖项。我和黎润红、张大庆对523计划和屠呦呦的工作有过文章,任何人全面读该文章,都清楚我们的意思是有多个人有重要贡献,而单独最重要的明显是屠呦呦。(虽然屠呦呦的贡献小于美籍华人与美国科学家在《细胞》介绍中的说法,但她仍是第一代表人,其他3人、5人组合都会有一定争议,而一定可以拿出没有争议的10人以内的组合)。令人哭笑不得的是,去年国家最高科学奖的评价过程中,我们文章的一句话被抽出来作为否定屠呦呦重要性的依据的一点,而不看整体评价。理解523计划内很多人不喜欢屠呦呦,但科学的评价不在于个人的喜好、不在于个人是否有矛盾、不在于个人是否人格完美,而在于具体工作和具体贡献的程度。
       6)我国常常有很多专家对一些工作进行间接评审,而评审者很多不能全部理解真实内容。有些人只以相关论文发表的国际刊物作为评价的主要标准,有些专家对国际刊物匿名的评审意见非常重视,认为是很客观的评价。匿名评审最关键的是是否同意文章的发表,而具体意见中几句好话、坏话不是关键,不能作为整体意见,因为匿名评审没有这种要求。这些都是间接评审的例子,评审者都没有了解被评审工作,而是偷懒、或无能。中国很多奖项和荣誉列出量化指标。国际奖项基本依赖文字叙述,对工作进行横向和纵向比较。所谓量化是客观的说法,完全不对,因为都是主观判断后的结果。某个刊物每篇文章不过是几个人评审的结果,不能因为刊物有SCI分数就认为每篇文章可以量化评价。科学工作的评价只能是通过比较而做出。实际上,任何“好”的判断都是比较的结果。否认这一点,只能是虚伪。未明确如何比较、未说出比较对象,可以是因为交流双方都知道背景,也可以是对外行说出背景没有很大意义,也可以是外交辞令。无论中国有些坚持虚伪的文化角落是否承认,比较实际是日常发生的事情。如何比较当然有质量的差别:匍匐在地上的昆虫自然看不出身边的土堆和远处的大山有差别。不仔细阅读相关领域文献,而简单听反映一个侧面的答辩,自然也不可能做出合适的判断。
 
解决办法
       解决第一和第二个问题的办法是减少自然科学奖项,除了国家分学科有一个层面的奖以外,其他都以各专业学会的奖项为主。这样,大家注意集中在学科内部,获得了解实质内容的同行的认可。
       解决第三个问题是放弃自我和单位推荐,废除国家最高科学奖、部委和地方奖目前使用的答辩制,而改成被推荐人不知情、不参与的回避型推荐制。
       解决第四个问题可以事先给评审委员会成员提供材料。对于我国保密较差的问题,即使当场给材料,也同样缺乏保密,事先不给材料带来的保密问题小于时间仓促导致的评审质量下降。
       第五个问题比较难解决,因为实质上是文化的问题,是我国道德风气导致的普遍问题,只能希望科技界带头有自尊,认为做好评价工作是首先是尊重评审人的自我人格,而不是为被评审人谋利益。
       对于第六个问题,需要参评的人和委员会自身水平提高,而且有责任心,只对自己有把握的工作进行评价,凡是无把握的需要事先做细致的工作了解实质,如果不懂就不参加评价。
       奖项和荣誉只是学术评价的一个方面,但它们是目前已经开始有条件进行改进的方面。对于一般高校和研究所,学术评价也需要改进,目的也是一个:在确实了解后、并能够判断的情况下,对学术实质进行评价。不过,在全国范围内,这一工作不可能很快普遍做到,需要现在有条件的单位开展,以后逐步展开。
 
{对张亭栋工作的讨论,我们进行了多种比较,不过好像有时被人忽视,提出一些已讨论过的问题。例如,李连达和李贻奎老师最近两天重新提出Fowler溶液的问题,我们2011年已指出(http://blog.sciencenet.cn/blog-2237-478156.html):“用砒霜治病,中药有传统,西方也曾用过。含砷的中药有砒霜、砒石、雄黄、雌黄等。北宋的《开宝详定本草》、明朝李时珍的《本草纲目》都记载了砒霜的药性。西方在十九世纪和二十世纪三十年代也曾用三氧化二砷治疗白血病,但未获普遍接受”。关键在于1970年代以前并不确切知道三氧化二砷到底针对什么疾病(而被用于很多疾病),在什么情况下可以无很大毒性而起治疗作用,所以,在张亭栋工作以前,三氧化二砷并非治疗白血病的标准方法,全世界的医生更不知道对三氧化二砷最敏感的不是所有白血病,而是急性早幼粒白血病(APL)。
       张亭栋的工作与其他科学工作一样,是在前人的基础上进行的。关键是他们是否做了进一步的工作。在APL治疗方面,我们明确说明(http://blog.sciencenet.cn/home.php?mod=space&uid=2237&do=blog&id=658474):“张亭栋与荣福祥(1979)论文已经明确:1)癌灵一号只需要三氧化二砷起治疗作用;2)最敏感的白血病是M3型的急性粒细胞白血病(后来也称为APL)”。这里,第一点是区别于此前所有用复方的中药,那些复方不清楚哪个单体化学分子起作用,比如两位李老师提到以前做过含雄黄复方的周霭祥直到1985年还在使用复方而未明确化学分子。第二点区别于此前所有用三氧化二砷的工作,有张亭栋等发现导致使用三氧化二砷有明确的针对性,今天全世界医生所接受的是张亭栋等的发现。
       我们也将三氧化二砷的工作放在APL治疗的历史中,说明了张亭栋工作与同领域工作的比较:早幼粒细胞白血病APL的治疗有显著改善, 归功于Ellison等(1968)引入cytarabine Boiron等(1969)引入daunorubicin,张亭栋等(1973)引入三氧化二砷, 王振义课题组以黄等(1987)发表的论文引入全反型维甲酸
       具体对于三氧化二砷的工作,为了更为清晰,可以再写文章进行比较。

转载本文请联系原作者获取授权,同时请注明本文来自饶毅科学网博客。

链接地址:https://wap.sciencenet.cn/blog-2237-660353.html?mobile=1

收藏

分享到:

当前推荐数:117
推荐到博客首页
网友评论83 条评论
确定删除指定的回复吗?
确定删除本博文吗?