近日,意大利罗马生物医学校园大学(Università Campus Bio-Medico di Roma)的Camillo Maria Caruso、Valerio Guarrasi(通讯作者)与瑞典于默奥大学(Umeå University)的Paolo Soda等研究者合作,在AI Open上发表了题为“Not another imputation method: A transformer-based model for missing values in tabular datasets”的研究论文。该工作提出了NAIM(Not Another Imputation Method),一种基于Transformer的新型表格数据模型,能够在不进行任何填充的情况下直接处理缺失值。NAIM通过特征特定的嵌入机制和创新的掩码自注意力机制,完全屏蔽缺失特征的贡献,并引入新型正则化技术增强模型对不完整数据的泛化能力。在 5 个公开数据集、36种缺失比例组合、对35个竞争方法的广泛实验中,NAIM在多数场景下取得了最优性能,特别是在高缺失率场景下优势显著。
研究背景
表格数据是机器学习和深度学习中最常见的数据形式之一,广泛应用于金融、医疗、社会科学等领域。然而,现实世界的表格数据常常包含缺失值(missing values),这可能由人为错误、调查无响应、数据损坏、研究对象流失等多种因素引起。目前处理缺失值的主流方法是填充(imputation),即先用均值、KNN或MICE等算法填补缺失值,再进行下游建模。但填充可能引入误导信息、损害模型性能,且最优填充方法难以事先确定。如何让模型直接从含有缺失值的不完整数据中学习,而无需任何填充预处理,是提升表格数据建模鲁棒性的关键问题。研究亮点
1. 提出无填充Transformer架构NAIM,通过特征特定嵌入(Feature Embedding)分别编码数值型和类别型特征,利用填充索引(padding index)将缺失值映射为不可训练的零向量,从根本上避免了填充带来的信息污染。2. 创新性地提出双重掩码自注意力机制(Masked Multi-Head Attention),通过将掩码矩阵M同时加到QKᵀ积和V乘法之前,完全消除缺失特征对注意力矩阵的影响,而非仅像传统方法那样部分掩蔽。3. 引入基于随机掩码的正则化技术,每个epoch以 50%的概率对每个样本随机掩蔽部分非缺失特征,模拟各种缺失场景,使模型即使在训练集无缺失的情况下也能学会处理缺失数据。4. 在 5 个数据集、36种缺失配置、总计6480次实验中,NAIM在 23/36 的场景中取得最优AUC,平均在 58.7%的情况下统计显著优于竞争方法,仅在1.6%的情况下显著劣于对手。原文信息
Not another imputation method: A transformer-based model for missing values in tabular datasetsCamillo Maria Caruso, Paolo Soda, Valerio GuarrasiAI Open, Volume 7, Pages 96–122, 2026DOI: https://doi.org/10.1016/j.aiopen.2026.02.005期刊介绍
AI Open是一本致力于分享人工智能及其应用理论的英文国际期刊,期刊侧重人工智能领域可操作知识层面及具有前瞻性观点的研究。期刊主编由清华大学计算机与科学技术系唐杰教授担任。
AI Open欢迎人工智能及其应用相关领域的文章。
期刊收录的所有文章都经过严格的同行评审,并发表在月活用户超过2000万的ScienceDirect平台,供领域内的学者、及全球读者免费阅读、下载及引用。
目前,期刊已被ESCI、Ei Compendex、Scopus、DOAJ、dblp computer science bibliography、EBSCOhost等权威数据库收录。在COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS学科175种国际期刊中位列第3位(Q1区),在COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE学科204种国际期刊中位列第5位(Q1区)。
主编
唐杰,清华大学
Björn W. Schuller, Imperial College London
副主编
Wendy Hall, University of Southampton
Michalis Vazirgiannis,Ecole Polytechnique
Jose A. Lozano,University of the Basque Country UPV/EHU
Esma Aïmeur,University of Montreal, Canada
刘知远,清华大学
张静,中国人民大学
东昱晓,清华大学
吴乐,合肥工业大学
马家祺,University of Illinois Urbana-Champaign, USA
何向南,中国科学技术大学
邱锡鹏,复旦大学
转载本文请联系原作者获取授权,同时请注明本文来自科爱KeAi科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3496796-1534337.html?mobile=1
收藏