孙学军
社交媒体信息过载致AI聊天机器人“大脑退化” 精选
2025-11-3 06:18
阅读:5042

社交媒体信息过载致AI聊天机器人“大脑退化”

低质量数据训练下的大型语言模型会跳过推理步骤  

 图片1.png

(配图说明:手机屏幕上显示着Llama 3的页面,背景中是模糊的元宇宙人工智能(Meta AI)标志。Llama 3是科技公司元宇宙(Meta)旗下的大型语言模型。图片来源:莫里斯·诺伯特/阿拉米(MauriceNorbert/Alamy))  

10月15日发布于预印本平台arXiv的一项研究显示[1],当人工智能(AI)聊天机器人接受大量低质量内容(尤其是在社交媒体上传播度较高的内容)训练时,其获取准确信息的能力和推理能力会显著下降。  

该研究的合著者、美国得克萨斯大学奥斯汀分校(University of Texas at Austin)生成式AI研究者王章阳(Zhangyang Wang,音译)表示,在数据科学领域,高质量数据需满足语法正确、易于理解等特定标准,但这些标准无法体现内容质量的差异。  

王章阳及其团队希望探究低质量数据对大型语言模型(LLMs)的影响——研究中将“低质量数据”定义为篇幅简短、传播度高的社交媒体帖子,或包含表面化、煽动性内容的帖子。团队重点分析了这类数据对模型推理能力、长输入信息提取能力、回答的伦理合规性及模型“人格特质”的影响。  

研究团队指出,接受低质量数据训练的模型会跳过推理过程中的关键步骤,甚至完全不进行推理——这会导致模型针对某一主题输出错误信息;在面对多项选择题时,模型也会选择错误答案。而在“垃圾数据”与高质量数据混合的数据集里,随着垃圾数据占比升高,模型推理能力受到的负面影响会进一步加剧。目前,该研究尚未经过同行评审。  

澳大利亚珀斯西澳大学(University of Western Australia)的AI研究者梅赫维什·纳西姆(Mehwish Nasim)认为,这一发现印证了AI领域长期以来的核心原则:数据质量至关重要。“早在人们开始研究大型语言模型之前,我们就常说,给AI模型输入‘垃圾’,它输出的也会是‘垃圾’。”她补充道。  

 输入“垃圾”,输出“垃圾”

王章阳团队从现有数据库中选取了社交媒体平台X(原推特)上的100万条公开帖子,用于训练开源模型,包括:美国加利福尼亚州门洛帕克市科技公司元宇宙(Meta)开发的大型语言模型Llama 3,以及中国杭州阿里巴巴集团(Alibaba)研发的Qwen模型的三个版本。  

Qwen属于推理型模型(类似深度求索(DeepSeek)的R1模型和开放人工智能(OpenAI)的o1模型),这类模型的设计初衷是通过生成推理步骤来解答用户的问题;而Llama是经指令微调的语言模型,其推理能力相对薄弱。  

为评估模型的“人格特质”,研究团队采用了心理学问卷。结果显示,在接受垃圾数据训练前,Llama模型表现出“亲和性”“外向性”“尽责性”“开放性”等特质,同时带有轻微的“自恋倾向”。但随着输入的垃圾数据增多,模型的负面特质不断强化,其中一份问卷结果显示,模型甚至显现出“精神病态”特征。  

为实现模型的长期优化,研究者可通过调整提示词指令来改进模型性能。但团队发现,对于完全由垃圾数据训练的Llama模型,调整提示词仅能使其性能得到部分提升——增加高质量训练数据的占比也仅能达到类似效果。此外,即便团队尝试引导模型反思并修正推理过程中的错误,模型仍会持续跳过推理步骤。这表明,可能需要更针对性的方法来缓解垃圾数据对模型的负面影响。  

澳大利亚昆士兰大学(University of Queensland)研究AI与社交媒体关系的斯坦·卡拉纳西奥斯(Stan Karanasios)指出,该发现说明数据筛选对于防止AI模型“大脑退化”(brain rot)至关重要。“最关键的是要确保数据经过精心筛选,剔除低质量或具有煽动性的内容。”他补充道。  

目前,《自然》(Nature)已联系元宇宙(Meta)和阿里巴巴(Alibaba),寻求其对该研究结果的评论。  

仍需更多深入研究

纳西姆表示,未来需要开展规模更大的研究,纳入不同规模的模型及闭源模型(如ChatGPT)。但研究闭源模型存在明显挑战:研究者不仅需支付使用费用,还无法对其进行训练。她补充道,后续研究还可探索一个问题——若为模型提供足量高质量数据,垃圾数据造成的负面影响是否可逆。  

上个月,社交媒体平台领英(LinkedIn)宣布,自11月3日起,将使用英国、欧洲部分地区及瑞士用户的数据和内容,用于训练生成式AI模型。

转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。

链接地址:https://wap.sciencenet.cn/blog-41174-1508529.html?mobile=1

收藏

当前推荐数:4
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?