聊天机器人亦有各自的语言特征
武夷山
《科学美国人》杂志的Today in Science newsletter(今日科学简讯)2025年6月10日发表以下短讯,我请DS将这篇短讯译成了中文,我做了个别调整。
聊天机器人的专属语言
语言学家卡罗琳娜·鲁德尼茨卡(Karolina Rudnicka)写道,每个人都有独特的表达方式,这取决于其母语、年龄、性别、教育程度等因素。这被称为个人方言(idiolect)。在最近一项比较两个大型语言模型——ChatGPT和Gemini——写作风格的研究中,鲁德尼茨卡发现,聊天机器人也有自己的“个人方言”。借助先前开发的公式,她计算出了两段文本之间可量化的差异,这揭示出大型语言模型确实拥有自己独特的语言风格。
鲁德尼茨卡还分析了两个聊天机器人关于糖尿病主题生成的文本节选。ChatGPT的文本往往更为正式、带有临床学术腔;它使用诸如“糖尿病患者”(individuals with diabetes)和“...的发展”(the development of)这样的短语。而Gemini的文本则更具对话性和解释性,使用诸如“...的运作方式”(the way of)、“一连串的”(the cascade of)等短语,并且用“糖”(sugar)代替“葡萄糖”(glucose)。
成因分析:有几种可能的解释。一种解释是,一旦某个单词或短语在模型训练过程中成为其语言库的一部分,模型可能会持续使用它并将其与相似的表达结合,类似于我们反复使用自己偏爱的词汇或短语。另一种可能是,大型语言模型会对自己先前使用过的词语进行自我暗示(priming),使其更倾向于再次使用该词。此外,鉴于模型训练数据的庞大规模,其独特的语言风格也可能是不可预测地演变而来的,研究人员称之为“涌现能力”(emergent abilities)。
意义所在:鲁德尼茨卡写道,基于大型语言模型的工具会产生不同的“个人方言”——并且这些风格可能随着更新或新版本的发布而改变和发展——这一事实对于当前关于人工智能距离实现人类水平智能还有多远的辩论具有重要意义。“同时,了解到大型语言模型使用独特语言风格写作,有助于判断一篇论文或文章是由模型生成还是由某个特定个人撰写——就像你可能通过其标志性风格在群聊中认出朋友的信息一样。”
(本文作者:Andrea Tamayo,《今日美国》简讯实习生)
转载本文请联系原作者获取授权,同时请注明本文来自武夷山科学网博客。
链接地址:https://wap.sciencenet.cn/blog-1557-1493234.html?mobile=1
收藏