
读脑新进展:所思即所讲
这种大脑扫描显示了语音皮层的活动,言语皮层是额叶的一部分,参与语音产生。图片来源:蒙特利尔神经学研究所/科学图片库
一种将神经信号转化为可听语音的读脑植入物使一名瘫痪女性几乎可以立即听到她想说的话。
研究人员使用人工智能 (AI) 算法增强了这种被称为脑机接口 (BCI) 的设备,该算法可以在女性想到句子时对其进行解码,然后使用合成语音大声说出这些句子。与以前只能在用户完成整个句子后才能产生声音的努力不同,现在的方法可以在 3 秒内同时检测单词并将其转换为语音。
研究结果于 3 月 31 日发表在《自然神经科学》上1代表着向实际用途的 BCI 迈出的一大步。
荷兰马斯特里赫特大学(Maastricht University)的计算神经科学家克里斯蒂安·赫夫(Christian Herff)说,较旧的语音生成脑机接口类似于“WhatsApp对话”,他没有参与这项工作。“我写一个句子,你写一个句子,你需要一些时间再写一个句子......它不像正常的对话那样流畅。
他补充说,实时流式传输语音的 BCI 是研究的“下一个层次”,因为它们允许用户传达自然语音特有的语气和强调。
脑信号读取器
研究参与者 Ann 在 2005 年脑干中风后失去了说话能力。大约 18 年后,她接受了一项手术,在她的大脑皮层表面放置了一个包含 253 个电极的薄如纸的矩形。植入物可以同时记录数千个神经元的联合活动。
研究人员通过对 Ann 婚礼视频中的录音训练 AI 算法,将合成语音个性化,使其听起来像 Ann 受伤前自己的声音。
在最新的研究中,Ann 从屏幕上出现的一组 1,024 个单词和 50 个短语中默默地说出了 100 个句子。BCI 设备每 80 毫秒捕获一次她的神经信号,从 Ann 开始默声说出句子之前的 500 毫秒开始。它每分钟产生 47 到 90 个单词(自然对话发生在每分钟 160 个单词左右)。
与 Ann 在之前的研究中测试的旧版本技术相比,结果有了显着的改进2,以及她目前使用的辅助通信设备,需要 20 多秒才能流出一个句子。
Herff 说,尽管 BCI 适用于短句,但与自然对话相比,它的运行仍然有“相当大的延迟”。研究3表明,“当延迟大于 50 毫秒时,它开始真正让你感到困惑”,他补充道。
“这就是我们现在所处的位置,”该研究的合著者、加州大学旧金山分校的神经外科医生 Edward Chang 说。“但你可以想象,随着传感器的增加、精度的提高和信号处理的增强,这些事情只会发生变化并变得更好。”
转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。
链接地址:https://wap.sciencenet.cn/blog-41174-1480180.html?mobile=1
收藏