博文

元评价对提高科技评价质量的影响研究

已有 5374 次阅读 2012-4-23 21:17 |个人分类:科学计量|系统分类:论文交流| 质量, 元评价

按：本文发表于2012.4《科学学研究》，原题为“推进元评价，提高科技评价质量及效果”，这是我写的第一篇以口号为标题的论文，后来根据编辑的意见进行了修改，但我认为对评价进行根本反思已经到了刻不容缓的地步了。

摘要：本文从分析元评价的地位和作用入手，探讨科技评价元评价主体、评价质量与元评价的关系等相关问题，构建了宏观元评价的体系结构。认为元评价是跨学科的研究，需要多方面共同协作，推动元评价理论和实践的不断深入。

关键词：科技评价元评价评价质量

中图分类号:G304

1引言

评价已经广泛应用到经济、科技、社会、教育、环境、工程、军事等诸多领域，各种指标体系、指数层出不穷，如物价指数（CPI）、大学排名、现代化指数、幸福指数、环境指数等等。然而，许多评价结果却广泛受到争议，比如物价指数、大学排名等等，评价的公信力受到怀疑。加强对评价自身的评价和反思，提高评价质量越来越受到学术界和公众们的广泛认同。

科技评价成果众多，包括科技人员评价、科研机构评价、科技政策评价、学术期刊评价等等。如上海交通大学的世界大学排名、武书连的大学与学科评价、武汉大学邱均平的学科评价与期刊评价、北京大学图书馆的核心期刊等等。

科技评价中同质评价较多是一个普遍现象。比如国际大学排名就有《泰晤士报高等教育特刊》的世界大学排名、《美国新闻与世界报道》大学排名、上海交通大学的世界大学排名等。国内大学排名，有武书连的大学排名、中国网大的大学排名、中国校友会的大学排名、中国人民大学的大学排名等等。中国的学术期刊评价有国家新闻出版署、中国科学院文献情报中心、中国科学技术信息研究所、北京大学图书馆、南京大学中国社会科学研究评价中心、中国社会科学院等。如此众多的评价有点让人无所适从，促使人们对评价本身进行更多的思考。

所谓元评价，就是对评价自身的评价。自Scriven（1969）^[1]在教育评价中提出元评价（meta-evaluation）理论以来已有40多年，但在科技评价中，元评价似乎一直没有受到重视。人们在一味推出各种各样不同的评价或评价体系的同时，对评价自身却缺少审慎的反思。比如目前的评价体系还有哪些不足和改进之处？评价质量如何？公众对评价的看法如何？科技评价的政策效果如何？具体到某类科技评价，它是必须的吗？过多的、不适当的科技评价可能有哪些负面的效果？等等。

国家对科技评价工作本身也十分重视，科技部联合五部委，以国科发基字[2003]142 号文的名义发布了《关于改进科学技术评价工作的决定》，认为“科学技术评价要客观、真实、准确地反映不同评价对象的实际情况，增加科学技术评价活动的公开性与透明度，保证评价工作的独立性和公正性，评价结果的科学性和客观性。”、“要优化评价程序，改进评价方法，注重评价实效。”、“建立健全科学技术评价制度，制定改进科学技术评价工作的具体办法和措施，完善各类评价管理办法和实施细则，加强对科学技术评价工作的管理。”虽然没有用“元评价”一词，但以上内容许多涉及到元评价的内容。

在科技评价中推行元评价，具有十分重要的意义。可以发展元评价和科技评价理论，优化评价技术；可以方便评价者按图索骥，寻找影响评价质量的薄弱环节并加以修正；可以提高评价的科学性和公信力，改善评价机构和评价者的声誉；可以提高政府部门对各种评价的管理，最终提高国家的科技创新能力和水平。

2文献综述

关于元评价的内涵和作用。Monica（2009）^[2]认为元评价是一种潜在的分析评价如何影响组织及评价决策效果的工具。Leslie（2009）^[3]的实证研究表明，在评价领域关于元评价实践缺乏公认的理解。Scriven（2009）^[4]认为元评价是同行评议的顾问，是评价者宣传其评价思想实践的表露，即使部分元评价也比没有元评价好。Stufflebeam（2001）^[5]认为对人员评价的元评价可以放大评价的优点与不足，有利于未来评价的改进。

关于元评价应用的领域。Darlene（2008）^[6]采用元评价方法研究顾客对产品质量测试的参与度。Jakob（2008）^[7]提出了对研究、发展、技术、创新评价的二次分析框架，用评价合成和元评价一起评价政策干预、政策执行以及政策效果。蒋悦等（2008）^[8]基于元评价理论，设计了评估目标、评估对象、指标体系与评估方法、运行机制四个维度的政府绩效评估体系架构。

关于元评价方法的自身的研究和创新。Bewyl等（2004）^[9]对各种各样相似项目评价报告的内容进行综合分析，首次提出评价合成（Evaluation Synthesis）的概念，包括评价文化和政策干预评价，本质上是一种元分析。Scriven（2001）^[10]、Worthen（2001）^[11]认为进程元评价用来提升评价进程的质量，累积元评价用来提供评价者、评价使用者、公众等对评价看法的信息。Helga（2009）^[12]认为元分析主要用于原始评价，而元评价是对评价的评价，并且建立了项目评价的元评价分析模型。朱云鹃（2009）^[13]采用Sperarman等级相关系数进行6种客观评价方法的优选，选取相关系数之和最大的评价方法对创新型企业进行评价。朱少强等(2010) ^[14]认为可以考虑从对评审专家的评价、对评价机构的评价、对行业协会的评价、学术出版认证等角度来构建中国学术评价体系的元评价机制。毛桂英（2010）^[15]提出坚持评价标准的学术性，建立元评价机制和规范评价操作，是解决当前文科学术评价问题的根本途径。马宁锋等（2009）^[16]按评价活动中的各种要素来划分元评价的对象，将元评价分为对评价主体的评价、对评价内容的评价、对评价方法的评价、对评价结果的评价四种类型。王敏（2008）^[17]提出内容分析法、经验总结法、评价信度分析、评价效度分析等四种元评价方法。

关于评价质量。学者们认为评价质量标准包括系统性（Scriven，1991^[18]；Shadish， el，1995^[19]；Weiss，1998^[20]）、透明化（Henry，2001^[21]）、各种方法的平衡性、切题性（Patton， 1997^[22]），文化胜任（Kirkhart，1995^[23]）等多个方面。Stufflebeam（2001）^[5]认为在美国，不同的评价具有不同的评价质量标准。楚广兴等（2005）^[24]认为过分强调评价方法和指标体系设计的研究，而对科技评价过程的质量控制机制及其控制策略重视不够，已经成为致使评价结果不准确的原因之一。丁福虎（2002）^[25]认为在科技评价中，评价主体政府化、条件指标过度化、绩效指标泡沫化、评价方法滞后化、加权处理主观化，是影响我国科技评价质量的主要因素。张卫华（2004）^[26]认为综合评价的质量应该包括综合评价的可靠性、准确性、适用性、可行性、实效性、合理性等。钱存阳等（2005）^[27]用多元统计分析中的Cronbachα法和因子分析来分别检验评价体系的信度和结构效度。冯晖（2007）^[28]借鉴软件工程中软件测试的原理方法，提出了基于黑盒测试和白盒测试的元评价方法，以提高评价质量。杨毅等（2007）^[29]采用斯皮尔曼等级相关系数对科技进步综合评价指标进行分类，确定强相关和弱相关指标，借以分析在指标设立方面存在的问题，优化指标体系等。瞿丽曼（2009）^[30]通过情报分析方法，对科技成果进行相关文献、公开报道的全方位评价，以提高成果评价质量。张青（2005）^[31]讨论了线性加权汇总类评价方法失效的因素，并建立了分析框架。

从以上研究看，在国外，元评价作为一种通用的分析框架，其应用领域和范围比较广泛，但具体的技术手段尚有待进一步研究。国内对元评价的优化和改进也有一些研究。但总体上，存在以下问题：

第一，国外元评价的研究成果远远超过国内、无论是理论还是应用，无论是质量还是数量。

第二，元评价的方法和技术尚有待进一步优化和提高，从技术层面研究元评价的文献不多。

第三，国内科技评价研究比较发达，已有上万篇文献，但元评价远远没有引起重视，研究极其有限，只有数篇文献。

第四，无论是国内外，关于评价质量的研究总体不多，至于研究评价质量与元评价关系的则更少。

本文从分析元评价的地位和作用入手，探讨科技评价元评价主体、评价质量与元评价的关系等相关问题，并且构建宏观元评价的体系结构。

3元评价与科技评价

3.1对科技评价进行元评价的意义

3.1.1有利于改进评价技术，提高评价质量

一般而言，第一次评价称为一次评价或原始评价，元评价其实是二次评价。它通过对评价目的、评价数据、评价方法、权重设定、评价结果等环节的检查和分析，找出其中存在的问题并加以改进，可以提高原始评价的质量，当然也有利于提高评价机构的公信力和权威性。

3.1.2有助于评价科技政策效果

元评价的内涵已经远远超越了评价本身，它不仅仅是对评价流程各环节进行深入分析，而且包括了对科技评价结果应用的评估，这其中非常重要的一个方面就是政策评价，即对政府科技评价决策效果的评价。科技评价中政策评价一直是个薄弱环节，应采用什么样的路径、技术、方法？政策评价的机制如何？政策评价中有哪些利益相关者和博弈？对这些问题，元评价虽然没有一一给出答案，但有助于我们以新的视角审视这些问题，进而加以改进。

3.1.3有助于反思评价本身

目前科技评价中存在的问题较多：评价理论与实践中的唯技术论、唯模型论甚嚣尘上，各种评价方法、指标任意套用的现象比较多；对同一评价对象，选取相同指标，不同评价者评价结果不尽相同；对于评价主体、评价目的、评价标准认识不清；对于评价的复杂性、评价中的利益相关者关系和各评价要素之间的相关性的复杂程度、特定评价方法或指标可能造成的负面后果估计不足等等。

进一步地，我们真的有必要进行如此众多的科技评价吗？首先，任何评价都是有成本的，都要消耗社会资源，数量适中的评价固然是必要的，但评价过多必然导致社会财富的浪费。其次，由于不同的评价结果往往存在冲突，固然有利于争鸣，但也削弱了评价的权威性，使公众甚至政府无所适从。第三，不科学的科技评价容易造成短视行为，比如每年进行的年度评价，如果所采用的都是当年数据，就有可能违背科研产出规律，因为科技的投入产出周期往往不止一年。

元评价促使我们对以上问题进行反思，让我们对宏观层面的科技评价体系、评价制度、评价机制等重新进行审视和优化。

3.2科技评价中元评价的主体

原始评价与元评价主体的关系如图1所示。在传统评价或原始评价中，评价主体主要包括评价者、评价对象等，当然也包括政府、公众、评价结果的使用者等。下面以大学评价为例，做出相关说明。评价者指大学的评价机构，评价对象是大学，广大考生、大学领导、公众等对评价结果感兴趣，他们是评价结果的使用单位。至于教育行政主管部门，肯定也不会对大学排名无动于衷。

那么对于元评价，有哪些评价主体呢？第一是评价者，主要是政府中专司评价的部门或学术机构，其关注的是评价指标、评价方法、评价环节、评价结果等方面的改善和优化。第二是评价对象，这和原始评价并没有本质的区别。第三是政府相关管理部门，它关注的是一共有多少种大学评价？为什么会有这么多评价？这些评价质量怎么样？哪一个更为权威？这些评价结果产生了哪些积极和消极的影响？从有利于大学科学发展角度出发，应该如何对大学评价进行管理？

至于广大考生、公众、大学等，虽然可能考虑到评价自身的一些问题，但一般不会过于关注大学排名的元评价，但政府必须认真考虑评价结果使用者的反应，即所有科技评价效果的社会效应，或者说，在元评价中，政府的地位变得更加重要。

原始评价

评价对象

评价者

评价结果使用者

元评价

评价者集合

政府机构

评价过程

评价过程反思

评价对象集合

政府

学术机构

图1 原始评价与元评价主体的区别

3.3宏观元评价体系结构

宏观元评价体系结构如图2所示。这里将评价机构自己所做的元评价称为内部元评价，将第三方机构所做的元评价称为外部元评价。在科技评价中，针对同一评价对象，可能有不止一个的原始评价，当然这些原始评价机构自己也会做内部元评价。政府部门和学术机构对这些原始评价进行外部元评价，然后进行决策，从而产生政策效果，当然还要对政策效果进行外部元评价。

原始评价1

内部元评价

原始评价2

外部元评价

原始评价……

政府

学术机构

政策效果

图2 宏观元评价框架

3.4评价质量与元评价的关系

3.4.1科技评价质量的复杂性

质量一词更多是产品和服务中的概念，当然也存在工作质量。ISO对质量的定义是：“质量是反映产品或服务满足明确的和隐含的需要的能力特性总和”。在科技评价中，质量问题要复杂得多。这里面包括两个问题，第一是“明确的和隐含的需要的能力特性总和”，相当于质量标准。第二是“满足谁需要的能力特性总和？”

公众、政府、科研机构等都是科技评价结果的用户，这些用户很多是免费用户，但他们却是科技评价质量的仲裁者。

从评价结果看，不同的人对评价结果的认同程度是不一样的。以大学排名为例，争议最多。同一所大学，有的认为其排名低了，有的认为其排名高了。我们可以生产出满足个性化需求的产品，但和产品质量不同，我们不能推出满足个性化需求的大学排名。根本原因在于，产品付费以后就不存在竞争性，而科技评价的用户往往不需要付费，而评价结果的排名永远存在竞争性。

谁来制定科技评价的质量标准？评价者自身显然不合适，不符合回避原则。政府机构似乎也不合适，主要原因在于评价技术的复杂性，评价工具、手段、模型众多，难分优劣，一些评价方法还不成熟，评价的理论模型还存在争议和优化的空间。笔者认为，评价的质量标准应该由学术界研究或制订。在理论研究尚不成熟之前，要慎重推出质量标准。

那么优秀的科技评价有哪些标准呢？首先是评价的可重复性。针对同一评价，更换同行评议专家后评价结果有较高的一致性。其次是评价结果的公众认同性，要和公众的感觉差不多，不能相差过大。第三是信息公开性。许多评价不透明，好的评价要敢于公开评价数据、评价方法、评价过程等相关信息。

3.4.2元评价与评价质量

元评价是提高评价质量的有效手段，它与评价质量的关系主要体现在以下几个方面：

从评价流程看，元评价从评价目的、指标选择、数据处理、权重设定、方法选择、结果分析等角度进行重新审计和检查，以发现评价中可能出现的问题，从而进一步改善评价。

从评价的信息披露看，元评价有利于向公众公布评价流程、评价数据、评价结果、评价方法等信息，从而使公众对评价有全面的了解，防止信息不公开造成人们对评价公正性的怀疑。

从评价技术和手段看，元评价有利于改进评价技术和方法，淘汰一些存在缺陷的或不适用的评价方法，相当于产品质量体系中提高生产设备的精度和质量。

从评价结果看，元评价有利于改善评价结果的公布方式。比如大学排名，各个大学有各个大学的特色，往往难以比较，而且很多评价结果区分度很小，如果硬性推出甲大学排名53、乙大学排名65是不合适的，也容易引起争论。不妨根据评价目的，将大学分为A、B、C等几类向社会公布，这样处理的好处是评价结果使人们容易接受，提高了大学排名的公信力，相当于提高了评价质量。

从评价目的看，元评价有利于政府和科研机构反思评价本身，加强对科技评价自身的管理。过多、过于频繁的评价违背科研规律（科研成果的产生周期需要的时间较长），浪费社会财富，不妨适当减少这些评价的数量和频率，推出一些符合科研规律的少而精的权威评价，这是保证全社会科技评价质量的最根本的措施。

4总结

元评价本身是跨学科的研究，比如评价技术既是统计学的研究范畴，也是数学、科学计量学、情报计量学的研究对象。关于评价的成本问题、政策效果等又是经济学、系统科学、社会学的研究对象。关于对众多评价的管理、评价导致的决策问题，又是管理学的研究对象。关于科技评价的信息处理又属于情报学的对象。关于评价目的、评价周期的研究又属于科学学的研究对象。

由于元评价是横跨自然科学和社会科学的研究，元评价本身的理论研究国际上尚处在起步阶段，国内研究则更加薄弱，需要各学科的学者们通力合作，推动元评价的研究不断深入。

参考文献

[1]Scriven, M. An introduction to metaevaluation[J]. Educational Products Report, 1969(2): 36-38.

[2]Monica LaBelle Oliver. Metaevaluation as a Means of Examining Evaluation Influence[J]. Journal of Multi Disciplinary Evaluation， 2009,6(11):32-37

[3] Leslie J. Cooksy. Metaevaluation in Practice: Selection and Application of Criteria[J]. Journal of Multi Disciplinary Evaluation, 2009, 6, (11):1-14

[4]Michael Scriven. Meta-Evaluation Revisited[J]. Journal of Multi Disciplinary Evaluation， 2009,6(11):3-8

[5] Stufflebeam， D. L. The metaevaluation imperative[J]. American Journal of Evaluation， 2001,22（2）: 183-209

[6]Darlene Russ, Hallie Preskill. Improving the quality of evaluation participation: a meta-evaluation[J]. Human Resource Development International,2008, 11(1): 35–50

[7] Jakob Edler， Bernd Ebersberger , Vivien Lo. Improving policy understanding by means of secondary analyses of policy evaluation Research Evaluation[J]. 2008,17（3）:175–186

[8]蒋悦卞日瑭钱钢. 基于元评价的政府绩效评估模型研究[J]. 情报杂志，2008(12)：26-30

[9] Beywl, W. & Associates GmbH (2004). Glossar wirkungsorientierte Evaluation. Köln: Univation-Institut für Evaluation Dr. Beywl & Associates GmbH. Heruntergeladen unter www.univation.org.

[10]Scriven， M. Evaluation: Future tense[J]. American Journal of Evaluation， 2001,22（3）:301-307

[11]Worthen， B. R. Whither evaluation? That all depends[J]. American Journal of Evaluation，2001,22（3）:409-418.

[12]Helga C. Hedler , Namara Gibram. The Contribution of Metaevaluation to Program Evaluation: Proposition of a Model[J]. Journal of Multi Disciplinary Evaluation，2009,6(12):210-223

[13]朱云鹃. 创新型企业评价方法优选研究[J]. 安徽大学学报（哲学社会科学版），2009（6）：143-147

[14]朱少强唐林柯青. 学术评价的元评价机制[J]. 重庆大学学报（社会科学版），2010（3）：81-85

[15]毛桂英. 文科学术评价的若干思考[J]. 科技情报开发与经济，2010(15):138-140

[16]马宁锋,李卫东,薜艳泽.基础教育学业成绩元评价的探析[J].中国电力教育, 2009(8): 29-30.

[17]王敏.对大学课程评价之“元评价”的思考[J].云梦学刊, 2008(5): 120-121.

[18]Scriven， M. Evaluation thesaurus （4th ed.）[M]. Newbury Park，2001, CA: Sage.

[19]Shadish， W. R.， Newman， D. L.， Scheirer， M. A.， & Wye， C. （Eds.）. Guiding principles for ealuators[M]. New Directions for Program Evaluation，1995, 66.

[20]Weiss， C. H. Evaluation （2nd ed.）[M]. Upper Saddle River，1998, NJ: Prentice-Hall.

[21]Henry， G. T. How modern democracies are shaping evaluation and the emerging challenges for evaluation[J]. American Journal of Evaluation，2001,22（3）:419-429.

[22]Patton， M. Q. Utilization-focused evaluation: The new century text （3rd ed.）[M]. ThousandOaks，1997, CA: Sage.

[23]Kirkhart， K. E. Seeking multicultural validity: A postcard from the road[J]. American Journal of Evaluation， 1995,16(1): 1-12.

[24]楚广兴李帮义. 科技评价过程的质量控制机制及控制策略研究[J]. 科学学与科学技术管理，2006（3）：40-43

[25]丁福虎. 科技评价指标设置的误区[J]. 科学管理研究，2002（3）：38-41

[26]张卫华. 多指标综合评价质量问题初探[J]. 统计与决策，2004（12）：126-127

[27]钱存阳,李丹青.多元统计分析在课堂教学质量评价中的应用[J].数理统计与管理, 2005(6): 40-43.

[28]冯晖.基于测试的元评价技术[J].上海师范大学学报(哲学社会科学版), 2007(5): 128-132.

[29]杨毅张晓东.基于元评价的科技进步综合评价指标分类研究[J].哈尔滨商业大学学报(社会科学版), 2007(3): 78-81.

[30]瞿丽曼. 基于情报分析法的科技成果评价研究[J]. 情报杂志，2009（8）：84-87

[31]张青. 多指标综合评价失效因素分析及模型[J]. 统计与决策，2005（3）：6-8

2012.4.23俞立平于宁波

转载本文请联系原作者获取授权，同时请注明本文来自俞立平科学网博客。
链接地址：https://wap.sciencenet.cn/blog-45134-562807.html

上一篇：人文社科领域国家重大项目申报时能改名称吗？
下一篇：赞几个期刊

收藏 IP: 218.71.163.*| 热度|

当前推荐数：6 推荐人：曹聪 孙根年 何学锋 化柏林 许海云 刘进平

该博文允许注册用户评论请点击登录评论 (7 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

俞立平

扫一扫，分享此博文

俞立平博客——邗上居分享 http://blog.sciencenet.cn/u/yuliping 科技评价、技术创新、信息经济镜像博客:http://www.yuliping.com

博文

元评价对提高科技评价质量的影响研究

当前推荐数：6 推荐人：曹聪 孙根年 何学锋 化柏林 许海云 刘进平

该博文允许注册用户评论请点击登录评论 (7 个评论)

俞立平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

俞立平博客——邗上居分享 http://blog.sciencenet.cn/u/yuliping 科技评价、技术创新、信息经济 镜像博客:http://www.yuliping.com

博文

元评价对提高科技评价质量的影响研究

当前推荐数：6 推荐人： 曹聪 孙根年 何学锋 化柏林 许海云 刘进平

该博文允许注册用户评论 请点击登录 评论 (7 个评论)

俞立平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

俞立平博客——邗上居分享 http://blog.sciencenet.cn/u/yuliping 科技评价、技术创新、信息经济镜像博客:http://www.yuliping.com

当前推荐数：6 推荐人：曹聪孙根年何学锋化柏林许海云刘进平

该博文允许注册用户评论请点击登录评论 (7 个评论)