博文

中国半导体十大研究进展候选推荐（2023-031）——运用记忆分类器及电容只读存储器的语音唤醒

已有 337 次阅读 2023-12-20 10:46 |系统分类:论文交流

1 工作简介

——运用记忆分类器及电容只读存储器的语音唤醒

近年，语音识别系统的应用需求上升，但由于需要处理庞大的语言模型，它需要大量运算及内存，因此会消耗大量的能量。实际上，语音识别系统的使用比例较低，所以我们会使用语音唤醒来预判输入的信号，有人声才会打开语音识别系统，以降低系统的功耗。另外，边缘运算代替云端运算，有效减少上传原始数据所造成的功耗。传统的语音唤醒应用了滤波器组作语音信号的特征提取，并以神经网络作为分类器。然而由于音频信号的频率很低，因此使用滤波器组作特征提取会有大面积和大功耗的缺点。去年我们的研究组已提出利用开关电容电路作特征提取代替滤波器组，以减少面积和功耗。然而，分类器只对每帧特征作全连接层运算，并不具有记忆过去特征的能力，因此特征提取的帧长受低频限制而需要维持10 ms以上。由于特征提取的帧长较长，对应的网络参数量也较多。

澳门大学阮家煇助理教授团队以循环神经网络（RNN）取代全连接层，可使特征提取的帧长大幅缩短至0.5 ms，使得特征提取成为短时卷积网络（ST-CNN），让整个模型的参数量由接近5000下降至45。同时特征提取的帧长缩短，也能在缩小ST-CNN的模拟内存的情况下减少漏电，以提升运算精度。另外，我们提出以电容只读存储器（CAP-ROM）作为非易失性存储器，这样可以移除用于模型参数的内储，减少大量面积以及对相关权重读写所造成的能耗，也能免却芯片在电源开启后需要对权重作预写入。除此之外，由于电容可以取近乎连续的取值范围，以电容值本身记录权重大小，可以省却权重量化的过程，并避免模型因量化而造成辨识率下降。

语音唤醒（图1）的输入语音讯号会被ST-CNN提取成特征F_in。ST-CNN只有一个一维卷积核，核大小为4。F_in会被一层具有五比特记忆（H_k）的RNN处理成RNN_out，最后被平滑化成VAD_out。

_{图1. 语音唤醒系统图。}

CAP-ROM（图2）会用于ST-CNN及RNN，它与我们先前提出的稀疏感知运算十分相似，不同之处在于CAP-ROM以一个固定电容值取代单位电容阵列，电容值的决定方式十分简单，它正比于该乘加运算中的权重的绝对值，而权重的正负号会决定差分信号的正接与反接。因此CAP-ROM同时具有储存权重以及运算的功能。

_{图2. CAP-ROM的电路图及取值方式。}

本工作在65 nm 的CMOS工艺下进行了流片验证（图3），由于RNN 大幅压缩了模型参数至45，并利用CAP-ROM以移除用于记录模型的储存器，因此功耗只需 47 nW，面积为0.8 mm²，语音唤醒在10 dB 的信噪比下达到94%，同时短特征提取帧使延时缩短至2.5 ms。

_{图3. 电路实现、芯片照片与语音唤醒辨识率、能耗比较。}

相关研究成果受澳门大学科研项目及澳门科技发展基金支持。先以题为“A 47nW Mixed-Signal Voice Activity Detector (VAD) Featuring a Non-Volatile Capacitor-ROM, a Short-Time CNN Feature Extractor and an RNN Classifier”发表于 International Solid State Circuits Conference 2023，后受邀投稿并以题为‘A 47-nW Voice Activity Detector (VAD) Featuring a Short-Time CNN Feature Extractor and an RNN-Based Classifier With a Non-Volatile CAP-ROM’发表于 Journal of Solid State Circuits: ISSCC special issue。林金海同学为论文第一作者，阮家煇助理教授为论文通讯作者。

2 作者简介

通讯作者

阮家煇，澳门大学微电子研究院助理教授。

2014年在澳门大学获得博士学位，于2014及2015年分别成为澳门大学博士后研究员及讲师。于2017年至2018年在爱尔兰都柏林大学学院作访问学者。于2018年在澳门大学成为助理教授。研究领域包括低功耗模拟运算AI、模拟存内计算、数字及基于 FPGA 的 AI 加速器等。曾发表在 ISSCC，JSSC，A-SSCC，T-CAS I 等集成电路领域顶级会议和期刊的研究成果超过二十篇。曾受邀于 A-SSCC 2021 RiSE 论坛上发表演讲。

第一作者

林金海，澳门大学博士研究生。

于2020年、2023年分别于电子科技大学、澳门大学获得学士及硕士学位。2023年开始于澳门大学攻读博士。研究领域为超低功耗人工智能语音处理设计。以第一作者身份在 International Solid State Circuits Conference, Journal of Solid State Circuits等会议、期刊发表多篇学术论文。

3 原文传递

详情请点击论文链接：

https://ieeexplore.ieee.org/document/102237‍15

转载本文请联系原作者获取授权，同时请注明本文来自阎军科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3406013-1414603.html

上一篇：中国半导体十大研究进展候选推荐（2023-030）——全固态Flash车载激光雷达的核心芯片
下一篇：中国半导体十大研究进展候选推荐（2023-032）——高性能模数转换器

收藏 IP: 223.71.16.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

阎军

扫一扫，分享此博文

JOS的个人博客分享 http://blog.sciencenet.cn/u/JOS

博文

中国半导体十大研究进展候选推荐（2023-031）——运用记忆分类器及电容只读存储器的语音唤醒

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

阎军

全部作者的其他最新博文

全部精选博文导读

JOS的个人博客分享 http://blog.sciencenet.cn/u/JOS

博文

中国半导体十大研究进展候选推荐（2023-031）——运用记忆分类器及电容只读存储器的语音唤醒

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

阎军

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)