|
语言本质上是大脑功能的表达形式,大脑功能的实现是神经元之间的电信号。理想的脑机接口就是把大脑信号直接采集,并将外来人工信息输送给大脑。脑机接口最后发展到极致,人和机器,人和人之间的信息交流,可以不用语言,而可以直接进行电信号的交换。这样的技术将对人类智能和机器智能更密切连续起来,将是对人类智能的彻底升级。有了这样的技术,我们的科学研究将进入自动化,链接了大量人类大脑的超级互联大脑,将会涌现出超级大脑。这样的超级大脑,可能让我们理解这个世界不同的角度,对现代科学都可能产生颠覆。现在这方面的发展速度也越来越快,最近《自然》报道了具有1000个单词的脑机接口技术,让我们看到未来技术的到来。这些研究标志着BCI技术发展的转折点,该技术旨在恢复严重瘫痪患者的沟通。
Brain implants that enable speech pass performance milestones (yyttgd.top)
实现语音传递性能里程碑的大脑植入物
最新研究开发的两个脑机接口,具有将大脑信号翻译成句子的能力,这带来了前所未有的技术,因为这种速度接近正常语音,词汇量也已经超过1000个单词。
迫切需要帮助患有神经系统疾病的人,这些疾病剥夺了他们普遍的人类沟通需求。发表在《自然》杂志上的两篇文章表明,由于严重瘫痪而无法说话的人可能会使用植入式脑机接口(BCI)进行通信,其通信速率远高于其他通信选项通常可以实现的速度。威利特等.1报告了一种使用穿透大脑皮层的电极记录大脑活动的设备,而Metzger及其同事的设备2 使用放置在皮质表面上的电极。这些研究标志着BCI技术发展的转折点,该技术旨在恢复严重瘫痪患者的沟通。
各种神经系统疾病使对言语和肢体功能至关重要的肌肉瘫痪,同时保留认知功能,可能导致闭锁综合征——其中个体无法再发起沟通,只能通过眨眼或最小动作来回应查询。各种各样的辅助系统,称为替代和增强通信技术,可以帮助闭锁综合征患者进行交流,但这些需要努力,并且比正常语音(每分钟约150个单词)慢得多(通常每分钟只有几个单词)。BCI有可能解决这些问题。
1969年,开始在恒河猴(Macaca mulatta)在 1990 年代后期进行人体实验,当电极连接到由神经退行性疾病(肌萎缩侧索硬化症或 ALS)引起的闭锁综合征患者的神经元时。随后在2006年进行了一项研究5将毫米级电极阵列(称为微电极)植入脊髓损伤患者的大脑中。该微电极阵列(MEA)记录了运动皮层中数百个神经元的活动,运动皮层是负责控制自主运动的大脑区域,从而控制机械臂。此后,多边环境协定被用于实现通信,例如通过解码手写文字。
自1999年以来,脑电图(EEG)的补充技术 - 其中电极沿着头皮放置以记录大脑中的电活动 - 已被使用通过控制自定义拼写软件帮助瘫痪患者进行交流8.大约在同一时间,人们发现放置在大脑表面的小圆盘形电极(直径2-3毫米)可以获得比使用头皮电极获得的更高质量的信号。这种记录大脑活动的方法被称为皮质电图(ECoG)。
在 2000 年代初期,ECoG 电极用于接受耐药性癫痫手术的人,以记录与言语和身体运动相关的大脑信号。这最终导致了第一个完全嵌入式ECoG设备的开发,该设备使闭锁综合症患者能够在家中使用打字程序。迄今为止,约有50名不同程度的瘫痪患者被植入BCI进行交流,其中大多数使用MEA。
梅茨格等提出的研究结果涉及一名瘫痪的参与者,她在参加这项研究前17年经历了脑干中风,使她的言语难以理解。作者的BCI系统包含一个嵌入了253个ECoG电极的硅片,每个电极记录了数千个神经元的平均活动(图1a)。该装置通过手术植入感觉运动皮层的左侧“面部区域”上 - 大脑中为口腔和面部肌肉提供服务的部分,包括声道。该研究建立在先前的ECoG记录报告的基础上,包括植入另一个脑干中风患者的类似BCI。
图1 |将思想转化为语音的高级技术。两个脑机接口(BCI)已经在由于瘫痪而无法理解说话的个体中进行了测试。a、梅茨格及其同事的设备2使用放置在大脑皮层大面积表面的电极来记录大脑活动,并使用循环神经网络(RNN,一种人工神经网络)将其转换为语音或文本。语言模型用于减少组成句子中的错误。BCI还将大脑活动转化为面部表情,这些表情使用化身表示。b、威利特及其同事的设备1使用植入皮层的微电极阵列,并记录来自相对较少数量的神经元的信号。大脑活动使用RNN和语言模型转换为文本。这两项研究表明,BCI可以以接近正常语音的速度(每分钟约150个单词)将神经活动转化为语音,并且使用大词汇表。
从大脑到文本解码是通过两个系统的组合实现的:递归神经网络(RNN,一种人工神经网络),它运行破译与发音器运动(声道的一部分)相关的大脑活动的算法;其次是语言模型,该模型以每分钟 78 个单词的速度(尽管单词错误率为 25.5%)从一组 1024 个单词中组成句子。对于较小的词汇表,大脑信号直接翻译成合成语音错误率降低(对于119个单词的词汇表,错误率为8.2%)。BCI还尝试解码了的面部表情,它使用数字化身再现了这些表情,从而为文本或语音提供了视觉反馈,极大地丰富了参与者的沟通能力。总体而言,与之前报道的ECoG BCI相比,该设备在词汇量,通信速度和语音解码的多功能性方面都有了实质性的改进。
威利特等.1使用两个MEA(总共包含128个电极)记录由于ALS而无法理解说话的参与者的左感觉运动面部区域的小斑块(图1b)。与Metzger及其同事的设备一样,RNN和语言模型用于将大脑信号翻译成文本,并在不同大小的词汇上进行训练和测试。使用该设备,参与者能够以平均每分钟62个单词的速度进行有效交流,12.5万个单词词汇的单词总错误率为23.8%,50个单词的词汇错误率为9.1%。
RNN使用参与者试图说出监视器上呈现的260-480个句子时收集的神经活动记录进行训练 - 整个过程平均每天需要140分钟,持续8天。Willett及其同事提出的分析表明,这种日常训练可以大大减少,而不会造成太多的表现损失。重要的是,作者观察到,从被广泛认为对语音产生至关重要的大脑区域(称为布罗卡区域)记录的神经活动无法解码 - 这引发了关于该区域是否包含对语音解码有用的信息的问题。
这两份报告构成了使用植入式BCI可以恢复通信的重要概念证明,但有几个问题需要进一步调查才能更广泛地使用。首先,两项研究中使用的语音模型都使用具有残余但微弱的发音运动的参与者的模仿语音进行训练和测试。现在需要更多的研究来显示对缺乏残余运动的受试者的疗效,如闭锁综合征(包括晚期ALS)。另一个问题是,对于这两种设备,高带宽记录都是从数百个电极中获取的,这些电极必须通过穿透皮肤的“基座”连接到外部放大器,这在外观上并不吸引人。需要开发完全植入的无线BCI,以复制或超过这些研究中报告的性能。
此外,高技能的研究人员积极参与了报告的BCI的操作,对于护理人员来说,如果没有广泛的培训和维护,这些BCI仍然过于复杂,无法在家庭环境中进行操作。未来将需要同样有效的BCI系统,该系统在最少或没有研究人员干预的情况下运行。这将需要使用以用户为中心的设计原则在临床人群中进行广泛的开发和测试。目前还不清楚用户对他人语音的感知是否会导致大脑到文本解码的错误,因为越来越多的证据表明,除了语音产生之外,语音感知还会激活感觉运动皮层。13,14.
最后,哪种BCI方法(MEA或ECoG)将最好地满足用户在实际应用中的安全性和长期有效性方面的需求还有待观察。MEA从小的皮层区域捕获丰富的功能信息,但信号往往不稳定,需要频繁更新语音解码模型。此外,MEA的寿命可能受到电极材料降解和器件组织封装的限制。15.与MEA相比,ECoG电极需要植入更大的区域,但ECoG电极位于皮质组织外部,通常可提供多年的出色信号质量16,尽管它们可以引起浅表组织反应17.
与此同时,这两个BCI代表了神经科学和神经工程研究的巨大进步,并在提高因神经损伤和疾病瘫痪而失去声音的人的生活质量方面显示出巨大的希望。即使是基本的BCI植入物,允许用户在辅助技术软件中选择字母或图标,也能在日常生活中为他们提供可观的好处和满足感18.支持通信的先进BCI系统,例如这里讨论的那些,可以预期会产生更大的影响。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-15 12:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社