科学网-从OpenAI到Google，人机语音交互新技术的挑战与前景-陈孝良的博文

从OpenAI到Google，人机语音交互新技术的挑战与前景

2024-5-15 17:07

阅读：7934

在过去的两天里，OpenAI和Google相继举行了发布会，展示了他们在人机语音对话技术领域的最新进展。两家公司展示的新技术在语音翻译、大模型和语音对话系统方面取得了显著突破，有效解决了以前大家在智能音箱反馈的“人工智障”问题，即智能音箱不智能的问题。然而，这些技术主要还是基于大模型的技术进步，而在声学和语音领域并没有展现出来新的技术突破。实际上，从语音对话、实时转写到同声传译，人机语音交互领域仍然面临两大挑战：实时转写或同声传译的理解断句问题，以及复杂场景下的远场交互精准度问题。

图片1.png

在此之前，我们需要先把语音对话、实时转写和同声传译这三个应用场景讲一下。语音对话、实时转写与同声传译是人机交互领域中的关键应用，它们各自依赖于复杂的科学技术，同时又相互影响，共同推动着人机语音对话技术的边界。

语音对话应用不仅要求机器能够准确理解人类的语音指令，还要求其能够生成自然、流畅且具有上下文连贯性的回应。这依赖于声学、语音和自然语言处理（NLP）的发展，特别是大模型的涌现，现在已经能够理解复杂的语言结构和语境，从而生成接近人类的对话。然而，要达到自然、智能的对话体验，还需要解决个性化对话、情感理解与适应多种语言和文化背景的挑战。

实时转写应用则要求人机系统在极短延迟下将语音转换成文本，这对于会议记录、远程教育等场景尤为重要。它不仅考验着语音识别的准确率，还涉及到实时处理大量数据流的能力，以及在不同语言、方言和口音上的广泛适应性。此外，远场复杂环境噪声的处理和对说话人识别的准确性也是实时转写技术面临的难点。

同声传译是这些应用中要求最高的一种，它要求人机系统即时翻译并同步输出，对语言理解和生成的速度、准确度以及流畅性有极高的要求。这不仅需要强大的语言模型，还需要对时序处理和上下文理解有深刻把握，以确保翻译的准确无误，这对目前的技术来说是一个巨大挑战。例如，翻译中的文化差异、俚语和行业术语的准确转换，以及如何在没有停顿的情况下实现流畅的连续翻译，都是技术发展的关键点。

当然这三种关键应用涉及到了声学、语音和语言三类技术。声学技术，作为语音和语言技术的基石，其重要性在于它直接处理声音信号的捕获和优化，核心目的是提升信号的信噪比，保证信号的有效性。在复杂的现实环境中，声学技术面临的挑战包括但不限于噪声消除、回声抵消和混响处理。噪声消除技术致力于从声音信号中过滤掉非必要的环境声音，提高目标语音的清晰度；回声抵消确保在有回声的环境中，如通过网络电话通话时，双方能进行无障碍交流；而混响处理则是在大空间或有反射表面的环境中减少声音的多重反射，确保原始语音信息的准确传递。这些技术的综合运用，能显著提升录音质量，为后续的语音识别提供高质量的原始数据，是实现高效语音通信和语音处理应用的先决条件。

在声学技术的支撑下，语音技术得以进一步发展，语音技术主要包括语音识别、语音合成、声纹识别和情绪识别。语音识别能够理解并转换连续或断续的语音为文本，这对于构建语音对话、实时转写和同声传译等应用至关重要。语音识别一般分为流式识别和文件识别，流式识别就是连续声音的识别，主要用于实时转写和同声传译，而文件识别就是“你一句我一句”的一句话识别模式，主要用于语音对话。声纹识别可以区分多个说话人，比如在会议场景下的实时转写就要区分不同说话人，否则大模型也无法做好摘要和进一步理解编辑。情绪识别则主要是识别声音的情感特征，比如愤怒、慈祥、温和、严肃等等，当然也可以反向应用于语音合成中的情绪合成，特别是长文本就必须要有情绪合成。语音合成就是将文本转成声音，现在语音合成基本都可以做音色克隆和情绪合成。这两天OpenAI和Google发布会展示的就是语音对话场景的应用，由于大模型和情绪合成的加持，所以就会比2010年乔布斯发布的Siri更加智能和有趣。

与声学和语音技术紧密相连的是语言技术，它涉及自然语言处理（NLP）、机器翻译和文本生成等领域，这些技术能够让机器理解、生成和处理人类语言。随着大模型的兴起，如语言模型的训练，它们能够处理更复杂的语言任务，从简单的问答到创作文学作品，甚至进行科学论文的撰写。当声学、语音和语言技术融合，通过诸如OpenAI和Google开发的语音对话系统，就实现了从简单的语音识别到真正具有对话能力的AI，它们能够理解上下文，进行连续的、富有情感的交流，推动人工智能技术进入一个全新的时代。

大模型的进展给语音对话带来了更智能和更有趣的体验，但是从2010年乔布斯发布Siri以来，声学、语音和语言三类技术的进步始终再交替进行，我们还有很多技术问题没有解决，距离人类之间的知识交流还具有相当长的距离。即便在语音对话、实时转写和同声传译领域，人机语音交互领域仍然面临如下的两大挑战。

1、实时转写或同传的理解断句问题

实时转写和同声传译技术是现代语音对话系统的核心组件。这些技术将语音信号转换为文本，或将一种语言的语音实时翻译为另一种语言，从而实现无缝的人机语音交互。然而，如何在极短时间内准确理解并断句是其中的一个关键挑战。

比如在在一场国际演讲中，实时同传技术将演讲者的内容翻译成多种语言。如果人机语音对话系统无法准确断句，听众可能会错过关键信息或误解演讲内容，甚至因为断句问题造成翻译的灾难性结果。还如在一堂多语言在线课程中，实时同传技术帮助不同语言的学生同时理解教师的讲解，同样也是断句问题可能会带来各种误解。这就需要人机语音对话系统快速而准确地断句，以保证翻译内容的清晰和易懂。再如在公司视频会议中，实时转写将记录会议内容。然而，如果不能准确断句，记录可能会变得混乱，进而影响后续的会议纪要和决策。

图片2.png

之所以会出现上述问题，首先就是语音信号的连续性问题，语音信号连续且没有明显的断句点，传统语音识别技术难以在实时处理中准确预测这些断句点，端点检测（VAD）技术目前来看并不能很好的解决这个问题。其次是复杂语境的上下文依赖，对话系统要准确的断句需要理解上下文，特别是长序列的上下文，这对大模型的即时处理能力提出了更高要求。我们也都知道，当前大模型的核心问题除了幻觉问题就是推理延迟问题。最后就是延迟悖论问题，人机语音对话若要提高断句准确性需要累积足够的语音时长进行分析，这自然就会引入延迟，直接影响实时性，但延迟和精准存在相互悖论的问题。

2、复杂场景下远场交互的精准度问题

远场语音交互技术允许用户在远离设备的情况下（一般来说超过一个手臂的距离），通过语音进行控制和交流。然而，在复杂环境中（如嘈杂场所、多人同时讲话等），准确捕捉和理解用户语音依然具有挑战性。这是由于复杂场景的信号噪声比较低，嘈杂环境中的背景噪声会降低语音信号质量，影响识别准确性。还有就是多说话者分离的问题，在多人同时讲话的情况下，人机语音对话系统需要准确区分不同说话者的语音或声纹，以进行分离和识别，但是目前再重叠语音方面处理的效果并不是太好。另外就是回声和混响的问题，远场环境中声音的反射和混响会导致语音信号失真，需要更高级的回声消除和信号增强技术来进行处理。

比如在嘈杂的咖啡馆中，通过智能手机的语音助手查询信息。周围的环境噪声和其他人的讲话可能会导致对话系统无法正确识别用户的语音输入。再如在高速行驶的汽车内，驾驶员通过语音助手导航或拨打电话。车内的引擎噪音和道路噪声会影响系统的准确性，需要对话系统具备强大的噪声抑制和说话者分离能力。另外在家庭聚会中，通过语音助手控制家中设备。然而，背景音乐和多人聊天的噪音可能会干扰系统识别用户的指令，导致误操作。

图片3.png

尽管人机语音对话技术取得了显著进步，但是在实时转写和复杂场景下的远场交互仍然是人机语音对话领域的两大挑战。通过不断优化语言模型、引入多模态融合技术以及采用先进的信号处理和深度学习算法，我们有望在未来克服这些难题，将人机语音对话升级到更自然、更智能的人机语音交互系统。此外，隐私保护、数据安全以及算法的公平性和透明度也是技术发展中不可忽视的重要方面。

参考论文

[1] Xiaoliang Chen et al. "Challenges and Contributing Factors in the Utilization of Large Language Models (LLMs)" (2023). arXiv:2310.13343

[2] Tang, Yun , et al. "Improving Speech Translation by Understanding and Learning from the Auxiliary Text Translation Task." (2021).

[3] Mirsamadi, Seyedmahdad , and J. H. L. Hansen . "A Study on Deep Neural Network Acoustic Model Adaptation for Robust Far-field Speech Recognition." Interspeech 2015.

转载本文请联系原作者获取授权，同时请注明本文来自陈孝良科学网博客。

链接地址：https://wap.sciencenet.cn/blog-1375795-1434236.html?mobile=1

当前推荐数：0

推荐到博客首页

网友评论0 条评论

该博文允许注册用户评论请点击登录