王启云
ESI 和 InCites 中论文数出入原因探析
2026-1-9 09:40
阅读:782

图谋按:ESI、InCites等工具属于科研管理工具范畴。基于科研论文的各种对象,如文献量(含发表量和引用量)、作者、主题、来源出版物、合作等特征提供Web端的文献计量统计和可视化分析,以友好的交互方式,简单的操作方法、直观的表现手法为科研人员开展研究提供有价值的参考信息。笔者自2015年开始关注与学习,2021年至今投入的时间和精力更多。受到多种因素制约,有主观、亦有客观。主观方面包含自己的学习与理解能力存在局限,甚至存在不少盲区;客观方面是工具本身属于永远的beta版,在不断发展变化(修订)。笔者做这方面工作主要是立足本校实际,服务不同层面(决策层、管理层、科研用户层),用户需求不同,关注的焦点亦不同。与此同时,需要高于实际,将视野进一步拓宽,助力学校及科研用户比学赶超,实现机构和个人的高质量发展。本文算是一则工作笔记—— ESI 和 InCites 中论文数出入原因探析。我自身尚未弄明白,敬请学者先进解惑。

提问:

ESI更新时间2026年1月8日(WoS数据范围:2015年1月1日-2025年10月31日),对应的InCites更新时间为2025年11月28日(WoS数 据范围:2015年1月1 日-2025年10月31日)。

**大学 ESI论文3962篇,总被引47602次。

InCites 数据集已于 Nov 28, 2025 更新。包含通过 Oct 31, 2025 标引的 Web of Science 内容。22 研究领域 (4001论文数),被引次数:49010次。

为什么两种检索途径的ESI论文数不同,且存在39篇出入?(这个出入是比较大的,之前未发现这种现象。)

生成式AI豆包提供的参考答案(对于明显错误的信息已做修改):

     结合提供的文献信息与 ESI、InCites 的核心差异,**大学两种检索途径论文数存在 39 篇出入(ESI 3962 篇 vs InCites 4001 篇),核心原因在于两个数据库的文献收录规则、筛选标准与统计逻辑存在本质差异,具体可从以下 4 个维度拆解:

一、文献类型筛选范围不同:ESI 严格限定类型,InCites 覆盖更广泛

     ESI 与 InCites 对 “有效文献类型” 的界定存在明确差异,这是导致数量差的主要原因:

ESI 的文献类型限制更严格:ESI 仅统计 Web of Science 核心合集(SCIE/SSCI)中 “近 11 年” 的Article(研究论文)、Review(综述论文)文献,且需满足 “被 Web of Science 核心合集正式收录且标引完整”(如具备完整卷、期、页码);

InCites 的文献类型覆盖更全面:InCites 涵盖 Web of Science 核心合集七大 / 八大索引数据库(含 SCIE、SSCI、AHCI、CPCI 等),除上述三类文献外,还包含会议论文、会议摘要、书信(Letter)、短讯(Note) 等更多文献格式。

     用户提供的两种检索均基于 “2015.1.1-2025.10.31” 的 WoS 数据范围,但 InCites 统计的 4001 篇中,可能包含 39 篇 ESI 明确排除的文献类型(如会议论文、书信类文献),这些文献未被纳入 ESI 的 “有效论文” 统计,导致数量差。(图谋注:实际案例不属于该情形。)

二、学科分类与归属规则差异:部分论文 “跨库归属不同”

两个数据库的学科分类体系不同,可能导致部分论文在 “是否归属**大学 ESI 统计范围” 上出现差异:

ESI 的学科分类固定且唯一:仅依据自身预设的 “22 个学科领域” 对论文进行分类,一篇论文通常仅归属 1 个 ESI 学科,且需满足该学科的 “收录阈值”(如被引频次、发表时间等);

InCites 的学科分类更灵活:除包含 ESI 的 22 个学科外,还引入中国《学位授予和人才培养学科目录》的分类标准,支持 “一篇论文跨多个学科分类”,且对 “学科归属” 的判定阈值更宽松(如不强制要求达到 ESI 的学科收录标准)。

      可能存在 39 篇论文:在 InCites 中被归入 “22 研究领域” 统计范围,但在 ESI 中因 “学科归属规则不同”(如归属到**大学未参与 ESI 统计的学科、或未达到该 ESI 学科的收录标准),未被计入 ESI 论文数。(图谋注:实际案例是否属于该情形,不确定。)

三、文献标引与收录时效差异:部分论文 “ESI 暂未收录”

尽管两者的 WoS 数据范围均为 “2015.1.1-2025.10.31”,但因标引流程、收录时效规则不同,可能导致部分论文在 InCites 中已统计,但在 ESI 中暂未收录:

InCites 标引更及时且包容:InCites 每月更新,对 “已标引但未完全定稿” 的文献(如 “在线优先出版” 论文、有轻微著录错误的论文)会先纳入统计,后续再修正;

ESI 标引更严格且滞后:ESI 每两个月更新,且对文献著录的完整性要求更高(如必须包含完整的作者单位、参考文献、正式出版信息),若论文存在 “作者单位标引不规范”“出版信息不全” 等问题,会被 ESI 暂存而不纳入统计,但 InCites 可能已先收录这类论文。

     这 39 篇出入论文,可能是 InCites 已标引但 ESI 因 “著录不完整” 暂未收录的文献,属于 “时效性差” 导致的统计差异。(图谋注:实际案例是否属于该情形,不确定。)

四、“机构归属” 判定规则差异:部分论文归属存在歧义

两个数据库对 “论文是否归属某机构” 的判定逻辑(如作者单位匹配规则)不同,也可能导致数量差:

InCites 的机构匹配更灵活:支持 “模糊匹配” 与 “多机构归属”,如论文作者单位包含 “**大学” 的曾用名(如 “**工学院”)、分支机构,或作者同时归属多机构时,InCites 可能将其计入**大学统计;

ESI 的机构匹配更严格:仅基于 “Web of Science 核心合集中标引的规范机构名称” 进行精确匹配,若论文单位标引为简称、曾用名或未明确归属,可能不被计入 ESI 的 “江苏海洋大学” 统计范围。

      若 39 篇论文存在 “单位标引不规范”,可能被 InCites 识别为**大学成果,但未被 ESI 纳入,导致数量差异。(图谋注:实际案例是否属于该情形,不确定。)

      综上,39 篇出入并非 “数据错误”,而是 ESI 与 InCites 基于 “不同统计目标” 设计的规则差异所致:ESI 聚焦 “高影响力核心文献”(严格筛选类型、学科、著录标准),InCites 聚焦 “全维度科研产出”(覆盖更多类型、更灵活归属),两者的统计逻辑差异必然导致数量差。

延伸阅读:

(1)**学科分析与检测数据库“分支机构贡献分析”模块,“年发文统计“中的“年份”对应WoS中的Published(出版时间)时间。Incites数据库中“Publication Date“对应Wos中的Early Access(在线发表)时间。因此两个时间是存在差异的,与直接在Incites数据库中““Publication Date(出版年)“按年份检索会有所不同。以“WOS:001551968400004”为例:格式分别为:FEB 2026、AUG 2025、2025-11-17,检索时间为2025年12月25日,由此可见,年份对应的时间不是实际的“出版时间”,只是系统中标记的时间。不同数据库的表述存在不同,英文表述不同,对应的翻译也可能是不同的。

(2) ESI 数据覆盖时间范围使用的是出版时间(Publication Date),但存在重要补充规则:当同时存在正式出版时间和在线优先发表时间(Online First / Early View)时,科睿唯安以在线发表时间为准进行统计。

核心说明

基础统计标准:ESI 基于 Web of Science 核心合集(SCIE/SSCI)收录的文献数据,其时间范围统计的是论文的出版日期,即期刊正式出版时标注的卷期号对应的日期。

在线优先发表处理:对于采用在线优先发表模式的期刊论文,科睿唯安会将论文的首次在线发表日期视为其出版日期进行统计,确保这类论文能及时纳入 ESI 的 10 年 + 6 个月滚动统计周期。

数据更新机制:ESI 每两个月(奇数月第二个星期四)滚动更新一次,每次更新会在原有时间范围基础上增加 2 个月的数据,同时每年 5 月份会去除最旧一年的数据,始终保持 10 年 2 个月至 11 年的统计周期长度 。

需要注意的是,无论是正式出版时间还是在线发表时间,都必须是论文的版本记录(Version of Record) 日期,即经过同行评审、编辑加工后正式发布的最终版本日期。

转载本文请联系原作者获取授权,同时请注明本文来自王启云科学网博客。

链接地址:https://wap.sciencenet.cn/blog-213646-1517728.html?mobile=1

收藏

当前推荐数:4
推荐到博客首页
网友评论1 条评论
确定删除指定的回复吗?
确定删除本博文吗?