孙学军
AI助力人与动物对话或将成真? 精选
2025-9-18 08:58
阅读:1403

AI助力人与动物对话或将成真?

某些灵长类动物、鲸类和鸟类的声音交流复杂度,或许已接近人类语言水平。

 图片2.png

在刚果民主共和国的茂密雨林深处,梅利莎·贝特(Mélissa Berthet)观察到倭黑猩猩做出了一种曾被认为是人类独有的行为。

在贝特观察这些灵长类动物的六个月里,她发现它们会通过多种方式组合叫声,形成复杂“短语”[1]。例如,当倭黑猩猩(Pan paniscus)一起筑巢时,会将表示“我们一起做吧”的“尖叫”与表示“看我”的“咕哝”结合起来。“这实际上是在表达:‘看我正在做的事,咱们一起干吧’,”贝特解释道。她目前在法国雷恩大学(University of Rennes)从事灵长类动物与语言学研究。

另一个例子是,倭黑猩猩会先发出表示“我想做这件事”的“啾鸣”,随后发出表示“咱们待在一起”的“哨声”。贝特指出,倭黑猩猩会在敏感的社交场景中组合这两种叫声,“我认为它们是想用这种方式维持和睦”。

这项于今年4月发表的研究,是过去几年中众多案例之一,这些案例均凸显出非人类动物的声音交流可能具备极高的复杂性。在某些灵长类动物、鲸类[2]和鸟类中,研究人员发现了一些长期被视为人类语言“标志性特征”的发声特点与模式。这些结果不仅挑战了“人类语言独特性”的传统认知,甚至让人们重新思考“语言”本身的定义。

毫不意外的是,许多科学家正借助人工智能(AI)工具加速动物声音的探测与解读,挖掘人类听觉可能遗漏的交流细节。“AI正在实现传统方法完全无法做到的事,”大卫·罗宾逊(David Robinson)表示。他是“地球物种计划”(Earth Species Project)的AI研究员,该非营利组织总部位于美国加州伯克利,致力于开发能破解跨物种交流的AI系统。

随着研究推进,人们的兴趣不仅限于用AI“倾听”动物“语言”,还开始探索用AI实现与动物的“双向对话”。

叫声的组合规律

研究动物交流的学者,会提出与语言学家相似的问题:声音是如何通过生理结构产生的(语音学)?声音如何组合成有意义的单元(形态学)?哪些规则决定了短语和句子的结构(句法学)?

大约十年前,研究人员还普遍认为,只有人类会使用语言学中的“组合性”特征——即把有意义的词语、叫声或其他声音组合起来,形成新表达,且新表达的含义由组成部分的含义衍生而来。

2016年一项关于大山雀(Parus minor)的研究,改变了科学家对“组合性”的认知。当大山雀听到“警报”叫声时,会警惕捕食者;听到“召集”叫声时,会向声音来源靠近。而当这两种叫声按“警报-召集”的顺序出现时,它们会同时做出两种反应[3]。若叫声顺序颠倒,这种反应则会消失——这表明大山雀的叫声具备“组合性”,即组合后的叫声拥有独立含义。

2023年的一项研究进一步拓展了这一发现。科学家在野外向黑猩猩(Pan troglodytes)展示假蛇,发现这种灵长类动物会将“警报”与“召集”叫声组合成新信息,促使同伴聚集到发声者身边应对威胁[4]。

不过,此前人类仍被认为是唯一能通过多种方式运用“组合性”的物种。例如,通过调整词语顺序改变短语含义、给词语添加后缀修饰语义、创造隐喻和习语表达抽象概念等。

 图片3.png

刚果民主共和国的倭黑猩猩会通过多种方式组合叫声形成“短语”。图片来源:Christian Ziegler/Nature Picture Library

但贝特及其团队的研究,弱化了人类与其他动物在这一特征上的差异。他们记录了30只成年倭黑猩猩的700次叫声,发现这些动物会通过四种方式组合有限的叫声[1]。其中“尖叫-咕哝”组合被研究人员归为“简单组合性”,因为这种组合的含义只是单个叫声含义的叠加(类似“红色的车”,仅描述“红色”与“车”两个属性的叠加)。而另外三种组合中,一种叫声会修饰另一种叫声,形成“复杂组合性”(类似“糟糕的演员”,描述的是“不擅长演戏的人”,而非“糟糕的人”与“演员”的简单叠加)。

法国里昂神经科学研究中心(Lyon Neuroscience Research Center)的进化生物学家塞德里克·吉拉尔-布托兹(Cédric Girard-Buttoz)及其团队于今年5月发表研究称,黑猩猩也会通过多种方式组合有限的叫声[5]。对于某些发声组合,其含义无法从单个叫声的含义中推导出来——这与人类语言中的部分习语类似。例如,黑猩猩在地面休息时会发出“呼噜”声,表达玩耍和亲近时会发出“喘气”声;但当“呼噜”后接“喘气”时,其他黑猩猩会爬上树、筑巢并一起休息——尽管这两种单独的叫声都与“爬树”无关,吉拉尔-布托兹解释道。他补充说,通过多种方式生成含义,是语言的基础要素之一。

鲸类的交流也具备人类语言的某些显著特征。总部位于美国纽约的非营利组织“CETI计划”(Project CETI)的研究人员,一直在加勒比海多米尼加岛附近海域追踪并记录抹香鲸(Physeter macrocephalus),收集了大量关于其活动轨迹与声音的数据集。科学家希望通过找出鲸类声音与行为的关联模式,实现对“鲸语”的翻译。

CETI计划的语言学家加斯珀·贝格斯(Gašper Beguš)正训练生成式AI模型,使其能模仿抹香鲸的声音及声音序列。人类通过让空气穿过喉部声带(声带以不同频率振动)产生不同声音,而抹香鲸则通过让空气穿过鼻腔内的“唇状结构”(该结构振动产生“咔嗒声”)发声。这些“咔嗒声”会组合成被称为“编码组”(coda)的单元。

 图片4.png

科学家通过无人机给抹香鲸安装传感器,收集生物声学及其他数据。图片来源:Jaime Rojo

CETI计划的科学家去年发表研究称,抹香鲸拥有自己的“语音字母表”,其“编码组”在节奏、速度等特征上存在差异[6]。此后,贝格斯及其团队发现,抹香鲸的“编码组”差异类似人类语言中的元音和双元音。人类语言中,元音的差异由舌头位置和嘴唇形状决定(例如“cheese”中的“ee”与“hot”中的“o”);双元音(滑动元音)则是在一个音节中组合两个元音(例如“pout”),嘴唇和舌头的移动会导致声音频率变化。

贝格斯的团队发现了两种声音模式截然不同的“编码组”,并将其分别命名为“a元音编码组”和“i元音编码组”。他们还观察到,这些“元音”会以四种方式发生频率变化:频率上升、频率下降、先降后升、先升后降[7]——这种频率变化可能是双元音的体现。

语言的定义之争

动物交流的复杂性是否足以使其被称为“语言”,取决于人们对“语言”的定义以及对“动物思维方式”的认知。贝格斯指出,目前主要存在两种观点:“一种观点认为,语言与复杂思维存在内在关联。”根据这种观点,复杂思维先于语言产生,语言只是思维的外在表达。若按此逻辑,动物若不具备复杂思维,就不可能拥有语言。

另一种观点则认为,语言只是交流的一种形式(类似手势或面部表情),无需以复杂思维为前提。在这种框架下,无论动物是否具备复杂思维,都可能拥有语言。一些训练动物与人类交流的实验(例如今年年初去世的倭黑猩猩“坎兹”(Kanzi)的相关实验),已暗示动物或许有能力掌握语言,但这与“它们在野外是否会自主使用语言”是两个不同的问题。

“目前还无法确定我们能否发现一套完整的动物语言体系,”罗宾逊表示。

一方面,人类语言的某些特征尚未在其他物种中被发现。语言学家查尔斯·霍克特(Charles Hockett)提出的“语言特征清单”包含16项特征,其中“位移性”“能产性”和“二重性”这三项尚未在非人类动物中被证实。

“位移性”指表达抽象概念的能力,例如描述过去、未来或远处的事物。贝特指出,目前尚无确凿证据表明动物交流具备这一特征,尽管存在一些轶事性观察——例如海豚会呼唤多年前消失的同类的名字,红毛猩猩(Pongo属)会告知同伴某区域曾出现过捕食者。

“能产性”指创造并理解全新表达的能力(即说出或听到从未接触过的语句,仍能理解其含义)。

“二重性”指有意义的信息由更小的有意义单元构成,而这些有意义单元又由无意义的声音片段构成。尽管鲸类会用“咔嗒声”组成更长的“编码组”,但科学家尚未证实“咔嗒声”无意义而“编码组”有意义。

“递归性”是另一项可能为人类语言独有的特征,指通过在句子或短语中嵌入其他句子或短语,形成更复杂的含义。德国图宾根大学(University of Tübingen)研究声音交流与认知的戴安娜·廖(Diana Liao)及其团队,训练乌鸦(Corvus corone)在触摸屏上按正确顺序啄击“开括号”和“闭括号”,结果发现乌鸦在心理层面具备递归能力[8]。“它们的表现甚至优于猕猴,与人类幼儿相当,”廖表示。但目前尚不清楚乌鸦是否会在交流中使用递归性。

此外,动物的声音交流是否遵循固定的“语法规则”,目前也尚无定论。而且,尽管灵长类动物已被证实能通过组合叫声生成含义,但其可表达的含义数量“与人类语言的表达能力仍相差甚远”,吉拉尔-布托兹补充道。

吉拉尔-布托兹还指出,尽管人们倾向于将动物交流与人类语言对比,但这两种系统可能存在本质差异:“或许存在一种极其复杂的交流系统,它与人类语言毫无关联,却仍能通过独特方式创造性地传递大量信息。”

目前,该领域的许多研究者在讨论非人类动物时,更倾向于回避“语言”一词。“语言是一种交流系统,目前我认为它是最复杂的交流系统,”廖表示。但她认为AI模型能帮助研究者发现人类难以察觉的交流特征——这些特征可能不存在于人类语言中,却在其他动物的交流中普遍存在。

人工智能破解野外“叫声密码”

许多研究动物交流的学者会借助AI,核心原因在于AI具备声音探测、识别与分类的能力。罗宾逊正在开发一款名为“NatureLM-audio”的工具,这是一种大型语言模型,训练数据来自13个公共数据集,包含数千段动物声音、音乐、环境噪音和人类语音,且每段音频都配有文字描述。当输入新的音频片段时,该模型能回答“有多少只鸟在发声”或“列出音频中涉及物种的通用名”等问题。罗宾逊表示,这款模型旨在成为研究者的“助手”,处理人类耗时费力的任务(例如分析大规模数据中的模式)。

AI工具还被用于分析音频与环境数据,识别不同声音在不同场景中的使用情况——这是理解声音含义的关键[9]。例如,AI系统已帮助研究者发现,非洲草原象(Loxodonta africana)和狨猴(Callithrix jacchus)会用特定声音给同伴“命名”[10][11]。

罗宾逊指出,类似工具还可用于研究非声音形式的交流,例如电鱼发出的电磁信号、信息素等化学信号。但他补充说,AI的潜在价值取决于研究对象和研究目标。

澳大利亚阳光海岸大学(位于锡比角)研究鸣禽的多米尼克·波特文(Dominique Potvin)表示,对于叫声变化小、且已有大量数据积累的鸟类,AI工具的优势尤为明显——她本人也在使用AI分析鸟鸣录音。例如,山雀的叫声几乎没有变化,机器能轻松且准确地识别。但对于模仿能力强的物种(如华丽琴鸟(Menura novaehollandiae))或叫声复杂的物种(如棕矢嘲鸫(Toxostoma rufum)),AI系统的即时实用性则会下降。

贝特和吉拉尔-布托兹在各自的研究中均未使用AI工具,原因是AI难以在嘈杂的森林中分离出动物叫声。对于希望解读叫声含义的研究者而言,“音频记录+行为观察”才能提供必要的场景信息。此外,AI也难以分析茂密森林中动物活动的视频。

过去几年,部分研究者开始尝试用AI生成动物声音序列——这正是CETI计划的核心目标之一,该计划最终希望通过向鲸类播放生成的声音序列,测试“鲸语翻译”的准确性。

日本东北大学(位于仙台)研究鸟鸣的神经科学家安倍健太郎(Kentaro Abe),开发了一款名为“FinchGPT”的AI工具,用于探测白腰文鸟(Lonchura striata domestica)鸣唱中的语法规则。研究团队先将3只白腰文鸟的3.2万段鸣唱录音转换为文本(给每个短声音模式分配一个字母),再用这些数据训练FinchGPT[12]。目前,安倍的团队正在测试该工具预测鸣唱序列中“下一个声音模式”的能力。

与此同时,谷歌DeepMind(伦敦)、佐治亚理工学院(亚特兰大)和野生海豚计划(Wild Dolphin Project,位于佛罗里达州北棕榈滩)的科学家联合开发了“DolphinGemma”模型。该AI模型通过学习大西洋斑点海豚(Stenella frontalis)的声音结构,生成能模仿其叫声的声音序列。

生成动物声音序列相对简单,更大的挑战在于让这些序列具备“含义”。尽管研究者普遍认为“理解动物声音含义”仍需时日,但已有部分人将“跨物种双向交流”列为目标。例如,“科勒多利特挑战”(Coller Dolittle Challenge)设立了50万美元现金(或1000万美元投资)的大奖,用于奖励在AI驱动的双向跨物种交流领域取得突破的团队,同时还设有年度奖项。

研究者指出,任何向动物播放声音的实验,都需考虑其对动物自然行为的潜在影响。例如,罗宾逊表示,向座头鲸(Megaptera novaeangliae)播放声音可能会影响其择偶行为——座头鲸的“声音文化”通过社会传承,这种影响可能持续数代。CETI计划及其他机构的科学家,也在思考“理解动物交流”可能带来的伦理与法律问题。

目前尚无法判断“与动物交流的益处”是否会超过“潜在风险”。“我不确定自己是否想拥有与动物对话的能力,”贝特表示,她也不确定动物是否愿意与人类交流。

波特文认为,其他动物对世界的感知与人类存在本质差异,双向交流或许根本无法实现。“我们不是鸟,永远无法知道一只鸟听到同类叫声时在想什么,”她补充道。但她认为,尝试理解动物的“表达”仍有价值:“我们会尽一切努力探索,而神秘感将永远存在。”

转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。

链接地址:https://wap.sciencenet.cn/blog-41174-1502464.html?mobile=1

收藏

当前推荐数:6
推荐到博客首页
网友评论2 条评论
确定删除指定的回复吗?
确定删除本博文吗?