科爱KeAi
AI Open | 无需插补的表格数据缺失值Transformer模型
2026-5-11 11:23
阅读:554

近日,意大利罗马生物医学校园大学(Università Campus Bio-Medico di Roma)的Camillo Maria Caruso、Valerio Guarrasi(通讯作者)与瑞典于默奥大学(Umeå University)的Paolo Soda等研究者合作,在AI Open上发表了题为“Not another imputation method: A transformer-based model for missing values in tabular datasets”的研究论文。该工作提出了NAIM(Not Another Imputation Method),一种基于Transformer的新型表格数据模型,能够在不进行任何填充的情况下直接处理缺失值。NAIM通过特征特定的嵌入机制和创新的掩码自注意力机制,完全屏蔽缺失特征的贡献,并引入新型正则化技术增强模型对不完整数据的泛化能力。在 5 个公开数据集、36种缺失比例组合、对35个竞争方法的广泛实验中,NAIM在多数场景下取得了最优性能,特别是在高缺失率场景下优势显著。

研究背景

表格数据是机器学习和深度学习中最常见的数据形式之一,广泛应用于金融、医疗、社会科学等领域。然而,现实世界的表格数据常常包含缺失值(missing values),这可能由人为错误、调查无响应、数据损坏、研究对象流失等多种因素引起。目前处理缺失值的主流方法是填充(imputation),即先用均值、KNN或MICE等算法填补缺失值,再进行下游建模。但填充可能引入误导信息、损害模型性能,且最优填充方法难以事先确定。如何让模型直接从含有缺失值的不完整数据中学习,而无需任何填充预处理,是提升表格数据建模鲁棒性的关键问题。

研究亮点

1. 提出无填充Transformer架构NAIM,通过特征特定嵌入(Feature Embedding)分别编码数值型和类别型特征,利用填充索引(padding index)将缺失值映射为不可训练的零向量,从根本上避免了填充带来的信息污染。2. 创新性地提出双重掩码自注意力机制(Masked Multi-Head Attention),通过将掩码矩阵M同时加到QKᵀ积和V乘法之前,完全消除缺失特征对注意力矩阵的影响,而非仅像传统方法那样部分掩蔽。3. 引入基于随机掩码的正则化技术,每个epoch以 50%的概率对每个样本随机掩蔽部分非缺失特征,模拟各种缺失场景,使模型即使在训练集无缺失的情况下也能学会处理缺失数据。4. 在 5 个数据集、36种缺失配置、总计6480次实验中,NAIM在 23/36 的场景中取得最优AUC,平均在 58.7%的情况下统计显著优于竞争方法,仅在1.6%的情况下显著劣于对手。

原文信息

Not another imputation method: A transformer-based model for missing values in tabular datasetsCamillo Maria Caruso, Paolo Soda, Valerio GuarrasiAI Open, Volume 7, Pages 96–122, 2026DOI: https://doi.org/10.1016/j.aiopen.2026.02.005

期刊介绍

AI Open是一本致力于分享人工智能及其应用理论的英文国际期刊,期刊侧重人工智能领域可操作知识层面及具有前瞻性观点的研究。期刊主编由清华大学计算机与科学技术系唐杰教授担任。

AI Open欢迎人工智能及其应用相关领域的文章。

期刊收录的所有文章都经过严格的同行评审,并发表在月活用户超过2000万的ScienceDirect平台,供领域内的学者、及全球读者免费阅读、下载及引用。

目前,期刊已被ESCI、Ei Compendex、Scopus、DOAJ、dblp computer science bibliography、EBSCOhost等权威数据库收录。在COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS学科175种国际期刊中位列第3位(Q1区),在COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE学科204种国际期刊中位列第5位(Q1区)。

主编

  • 唐杰,清华大学

  • Björn W. Schuller, Imperial College London

副主编

  • Wendy Hall, University of Southampton

  • Michalis Vazirgiannis,Ecole Polytechnique

  • Jose A. Lozano,University of the Basque Country UPV/EHU

  • Esma Aïmeur,University of Montreal, Canada

  • 刘知远,清华大学

  • 张静,中国人民大学

  • 东昱晓,清华大学

  • 吴乐,合肥工业大学

  • 马家祺,University of Illinois Urbana-Champaign, USA

  • 何向南,中国科学技术大学

  • 邱锡鹏,复旦大学

转载本文请联系原作者获取授权,同时请注明本文来自科爱KeAi科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3496796-1534337.html?mobile=1

收藏

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?