张俊鹏
面向表格基础模型:现状、挑战和机遇
2024-6-14 21:42
阅读:621

面向表格基础模型:现状、挑战和机遇

毫无疑问,深度学习是近年来许多技术进步的关键驱动力。这一进展在自然语言处理和计算机视觉领域尤为显著,在这些领域,深度学习方法长期以来一直优于传统的工程和机器学习范式。目前发展的前沿是所谓的基础模型——在大量数据上训练的大型通用架构,在各种下游任务中表现出前所未有的性能。例如,在自然语言处理中,基础模型在语言理解和生成方面取得了突破。最常见的是,它们通过在chatGPTBardHuggingChat等通用聊天机器人中的使用而闻名,这些聊天机器人分别由OpenAIGPT、谷歌的PaLMMetaLLaMA语言基础模型驱动。在这种情况下,它们通常也被称为大型语言模型(LLM)。同样,在计算机视觉中,基础模型主要在生成式人工智能的背景下变得流行,例如通过DALL-EStable DiffusionMidjourney。然而,它们也成功地用于其他与视觉相关的任务,如分类、对象检测或语义分割等。最近,还研究了多模态基础模型,例如同时利用自然语言和图像。

虽然还没有被完全理解,但基础模型的成功通常归因于一个关键因素:规模。这里,尺度既指底层深度学习模型的参数数量,也指所需的训练数据量(两者通常是相互依赖的)。将深度学习模型扩展到数千亿甚至数万亿个参数的能力——以前远远超出可行性的量级——主要是由深度学习架构、训练范式和硬件的最新发展推动的。也就是说,基础模型主要是由Transformer架构的使用驱动的,通过使用分布式计算节点和硬件加速器的大型集群进行大规模的自我监督来训练。

除了可预测的随规模增长的性能之外,基础模型还表现出所谓的涌现属性,指的是通过泛化而不是通过显式(架构)构建间接出现的训练模型的特征。通常,但并非总是如此,这些性质会在大范围内突然出现,并与物理系统中的相变有相似之处。涌现特性的例子包括,特别是在各种任务中令人印象深刻的零次和几次推理,例如用以前看不见的语言进行单词解析或问题回答。虽然一般来说,涌现属性得到了广泛的认可,但它们的潜在特征和工作原理在社区中得到了积极的讨论,有时也存在争议。

尽管基金会在自然语言处理和计算机视觉方面取得了巨大的成功,基础模型尚未广泛应用于其他领域(尽管正在积极研究)。一个可能的原因是,目前基础模型的主要创新者是美国的科技巨头,如微软(主要通过OpenAI)、谷歌和Meta,它们的核心产品都围绕着自然语言和视觉。

尽管表格数据在野外非常丰富,在许多实际应用中非常重要,显示出AI应用的巨大潜力,但在深度学习和基础模型的背景下,它只引起了很少的关注。然而,随着自监督学习和基础模型在自然语言和计算机视觉领域的巨大成功,该领域最近获得了更多的关注,如越来越多的出版物以及顶级机器学习会议上专门针对表格领域的会议研讨会所示,如图1所示。然而,与设计和训练表格基础模型相关的技术挑战,即通过大规模使用异构表格数据集的大型语料库进行自我监督训练的深度学习模型,在文献中仍然没有解决。

image.png

1 在顶级机器学习会议(NeurIPS, ICLRICML)上发表的论文大致数量

为此,白皮书(Towards Tabular Foundation Models: Status quo, challenges, and opportunities)的主要贡献如下:

提供了与表格基础模型背景最相关的文献概述,讨论了成就以及当前方法的局限性。

强调了与表格基础模型相关的技术挑战,特别是那些将它们与自然语言或计算机视觉区分开来的技术挑战。

概述了一个体系结构和培训管道,作为迈向表格基础模型的基线,并显示了初步的实验结果。

相关文献参见:https://hal.science/hal-04440710

参考文献

[1] Maximilian Schambach. Towards Tabular Foundation Models: Status quo, challenges, and opportunities. Merantix Momentum. 2024. hal-04440710

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1438239.html?mobile=1

收藏

分享到:

当前推荐数:2
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?