IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

智能人机交互中第一视角手势表达的一次性学习分类识别

已有 1673 次阅读 2021-6-30 16:21 |系统分类:博客资讯

一次性学习手势识别是指:给定一个大规模的训练集作为基类,对于从未见过的新类(与基类不重叠),让计算机模拟人类的认知方式学习并理解新生事物,并借助每类仅有的单个训练样本,完成准确识别新类测试样本的任务。


鹿智, 秦世引, 李连伟, 张鼎豪. 智能人机交互中第一视角手势表达的一次性学习分类识别. 自动化学报, 2021, 47(6): 1284−1301

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190754?viewType=HTML


在智能人机交互中,以交互人的视角为第一视角的手势表达发挥着重要作用,而面向第一视角的手势识别则成为最重要的技术环节。目前,一次性学习大多集中在图片的分类任务上,第一视角下基于一次性学习的动态手势识别才刚刚起步。然而,随着可穿戴式技术的发展,特别是考虑到用户需求,如何帮助人们高效地浏览、搜索和分析第一视角下采集的视频数据,更好地为人机交互服务变的尤为重要。在第一视角下的一次性学习手势识别任务中,手的大小、形状差异、光照变化以及复杂背景等大大增加了手势识别的难度,使得传统的一次性学习手势识别方法在自动化程度和识别精度上有待进一步提升。因此,利用图像处理、深度学习等领域的最新研究方法提升第一视角下的手势识别准确率具有重要意义。


图1.jpg

不同场景下第一视角手势人机交互图示


 本文提出了一种基于深度神经网络级联组合解决复杂应用场景中第一视角下的一次性学习手势识别的算法。主要贡献如下:

1)在SSD目标检测模型的基础上对其进行改进,以MobileNetV2部分网络结构作为SSD网络的特征提取模块,并结合编−解码的思想融合上下文信息,提出了一种沙漏型的轻量级SSD目标检测网络架构;

2)在U-Net语义分割模型的基础上,修改编码网络和解码网络对应层的跳跃连接,并使用1×1卷积对并置后的特征图进行融合;

3)创新性地将用于少样本图像识别的2D关系网络模型扩展成3D关系神经网络并应用到第一视角下的手势识别领域,通过深度神经网络的自主学习进行特征提取和相似性度量,降低了网络模型对海量数据的依赖;

4)为了评估一次性学习手势识别算法的分类性能,使用SoftKinetic DS325 采集并构建了第一视角下的手势数据集。该数据集对验证本文提出的第一视角下 一次性学习手势识别算法的技术路线提供了一个很好的试验基地。


图2.jpg

十种用于验证一次性学习手势识别算法性能的动态手势数据集


图3.jpg

改进的SSD目标检测网络架构


图4.jpg

改进的轻量级U-Net网络结构


图5.jpg

5-way 1-shot 3D关系神经网络系统架构


作者简介


秦世引
北京航空航天大学自动化科学与电气工程学院和东莞理工学院电子工程与智能化学院教授。主要研究方向为模式识别与机器学习,图像处理与计算机视觉,人工智能及其应用。本文通信作者。
E-mail: qsy@buaa.edu.cn


鹿  智
北京航空航天大学自动化科学与电气工程学院博士研究生。2016年获得北京信息控制研究所计算机科学与技术硕士学位。主要研究方向为机器视觉和模式识别。
E-mail: by603117@buaa.edu.cn


李连伟
北京航空航天大学自动化科学与电气工程学院博士研究生。2017年获得山东大学控制科学与工程学院学士学位。主要研究方向为深度学习和计算机视觉。
E-mail: llw2017@buaa.edu.cn


张鼎豪
北京航空航天大学电子信息工程学院硕士研究生。2018年获得北京航空航天大学自动化学士学位。主要研究方向为计算机视觉和模式识别。
E-mail: hbhszdh@buaa.edu.cn




https://wap.sciencenet.cn/blog-3291369-1293488.html

上一篇:JAS副主编刘德荣教授当选为欧洲科学院外籍院士
下一篇:JAS最新影响因子6.171,排名世界第7
收藏 IP: 159.226.182.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-23 20:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部