|
科研诚信是科技创新的基石。近年来“论文工厂”通过批量生产学术赝品,严重侵蚀科研生态。传统检测方法依赖人工审查与文本相似度分析,难以应对规模化、隐蔽化的造假手段。
JDIS最新研究提出PDCN模型,通过融合论文标题语义与引用网络结构特征,实现对“论文工厂”论文的自动化检测,准确率突破81%,为学术出版平台与科研管理机构提供了全新工具。
创新一:构建用于识别论文工厂的引文网络异构图
核心思路是创建一个包含论文、期刊、出版商等信息的引文网络异构图,并利用图神经网络模型和分类器对论文节点进行分类。
研究团队从Retraction Watch数据库获取1800篇确认为“论文工厂”的论文,通过OpenCitations渠道抓取其引用关系,最终得到了具有完整元数据的节点及其相关边的816篇“论文工厂”论文。基于这些数据构建了一个包含500万节点、1100万边的引文网络异构图。
根据多类节点,设计6类元路径(如“论文-期刊-论文”“论文-出版商-论文”)捕捉三类典型引用操控模式:
循环互引:同一期刊论文相互引用
无关引用:论文引用与主题无关的文献
集群引用:批量论文集引用特定文献群
Dataset Construction Process
图1. 数据集构建过程
创新二:PDCN模型架构
文本特征提取模块:用KeyBert提取标题关键词,经BERT编码生成语义向量
异构图注意力网络模块:分层聚合节点邻域信息,区分不同元路径的影响,获得最优加权组合
分类决策模块:LGBM分类器融合文本与结构特征,识别异常论文
The framework of our proposed PDCN model.
图2. PDCN模型框架图
PDCN 模型可高效识别“论文工厂”论文
效能突破
在包含816篇“论文工厂”论文的引用网络异构图上,PDCN模型准确率达81.85%,F1分数为80.49%,较传统图神经网络模型(RGCN、HGT等)提升超30%。
可解释性
可以基于元路径和邻居节点的权重,对模型的判断提供科学解释。
随着PDCN模型代码与数据集的公开,学界可进一步优化检测算法,共同抵御“论文工厂”。欢迎阅读原文,深入了解这一创新模型的详细内容和实验分析。
Research Papers
A paper mill detection model based on citation manipulation paradigm
基于引用操控模式的论文工厂检测模型
Jun Zhang1, Jianhua Liu2, Haihong E1†, Tianyi Hu1, Xiaodong Qiao2, ZiChen Tang1
1School of Computer Science (National Model Software School), Beijing University of Posts and Telecommunications, China;
2Beijing Wanfang Data Co., Ltd. China
CSTR: 32295.14.jdis-2025-0003
识别阅读全文
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-4-27 13:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社