博文

南科大于仕琪团队 | YuNet:一个速度为毫秒级的人脸检测器

已有 610 次阅读 2023-10-17 16:37 |个人分类:好文推荐|系统分类:论文交流

近年来，准确的人脸检测技术取得了巨大发展。然而，由于模型庞大、计算成本高，人们难以将多个检测器部署在模型大小和延迟严重受限的移动和嵌入式设备上。南方科技大学于仕琪副教授团队介绍了专门为边缘设备设计的毫秒级无锚点人脸检测器YuNet。在提高效率和准确性的权衡方面，该研究做出了几项重要贡献。首先分析了近年来有影响力的先进人脸检测器，并总结了缩减模型大小的规律。然后介绍了一种轻量级人脸检测器YuNet。该检测器包含一个微小而高效的特征提取骨干网络和一个简化的金字塔特征融合模块。YuNet在准确性和速度之间达到了最佳平衡。YuNet只有75856个参数，不到其他小型检测器的1/5。此外，该研究还提出了一种针对小型人脸检测器的训练策略，可以有效地训练具有相同训练集分布的模型。所提出的YuNet在WIDER FACE验证集最难的数据上实现了81.1%的mAP(单尺度)，推理效率极高(英特尔 i7-12700K：320×320分辨率下每帧 1.6毫秒)。由于其独特的优势，YuNet 及其前身的资源库在GitHub上很受欢迎，获得了超过11000个点赞，并被OpenCV Model Zoo采纳。

论文中介绍的YuNet网址为：

https://github.com/ShiqiYu‍/libfacedetection

标题.png

全文下载：

YuNet: A Tiny Millisecond-level Face Detector

Wei Wu, Hanyang Peng, Shiqi Yu

https://link.springer.com/article/10.1007/s11633-023-1423-y

https://www.mi-research.net/en/article/doi/10.1007/s11633-023-1423-y

全文导读

几十年来，人脸检测一直是计算机视觉领域的一个热门话题。人脸识别、人脸美化、人脸对齐、人脸跟踪等许多与人脸相关的应用都离不开人脸检测这一前提步骤。给定图像后，人脸检测通过边界框定位人脸区域。为了提高人脸检测性能，人们提出了很多方法，从早期的手工特征到现在的基于CNN的特征。

人脸检测的难度低于一般物体检测。在具有挑战性的基准WIDER FACE上，人脸检测准确率达到了饱和状态。有些人可能认为人脸检测问题已经解决。然而，事实并非如此。准确率排名靠前的几种方法都使用了大型预训练骨干网络、复杂的特征增强模块和大量测试时间增强（TTA），以获得更好的排名。例如，最好的检测器之一Mog-face使用了711M参数和808 GFLOPs（VGA 图像），达到了最高的准确度。只有消耗大量存储和计算资源，才会有较高的精确度。

然而，在现实世界的应用中，人脸检测被广泛用于在手机、服务类机器人、监控摄像头和物联网（IoT）设备等边缘设备上。由于成本原因，这些设备的存储资源和计算能力有限。此外，在许多应用场景中，设备只需要检测几个明显的人脸，而背景中的微小人脸通常是不需要的。即使是应用在中央服务器中，快速高效的检测器也能节省大量能源，并使服务器同步处理大量数据。与能在某些基准测试中略微提高平均精度（AP）的大型人脸检测器相比，人们急需高效的微型人脸检测器。

人脸检测器中的骨干网络对检测器的性能至关重要。VGGNet 系列中的VGG-16、ResNet系列中的ResNet- 50/101/152，以及MobileNet等一些常见的骨干网络，最初都是为ImageNet 的图像分类而设计的。如图 1 所示，人脸检测不同于图像分类，后者将最深层的输出作为特征向量。为了处理不同尺度的物体，需要使用不同层的不同特征图进行检测。由于信息丰富，大型人脸更容易检测。此外，大的人脸通常是从较深的特征图中检测出来的，比小的人脸更容易检测。这明显说明，在人脸检测中，主干应侧重于小的人脸。

图1.png

图1 为了处理不同大小的人脸，通常会从较深的特征图中检测出大人脸，而从较浅的特征图中检测出小人脸，因为不同特征图上的像素具有不同的视野。

还应该注意到人脸尺寸的分布。在WIDER FACE数据集中，大多数人脸都很小，且小于20 像素。许多与人脸相关的应用也有类似情况。许多数据增强操作，尤其是随机裁剪，都会改变人脸尺寸的分布。如果用不同分布的数据集（图2中的分布A、B和C）来训练模型，平均精度会明显下降。离原始分布越远，平均精度越低。

图2.png

图2 如果用不同分布的数据集（A为红线，B为绿线，C为蓝线）来训练模型，平均精度会明显下降。离原始分布越远，平均精度越低。

本文以下部分将介绍一种微型毫秒级人脸检测器: YuNet。本文的贡献如下。

1) 根据本文作者对人脸检测的独特理解，本文设计了一个微型人脸检测器，它的参数数量非常有限，延迟非常低，精度也很高。

2) 本文提出了一种用于模型训练的数据采样策略。这种策略可以明显提高深度检测器，尤其是轻量级检测器的精度。

3) 本文所提出的YuNet应该是最好的微型人脸检测器，它在WIDER FACE验证硬集上的平均精度达到了81.1%，并因其有效性在GitHub.com上获得了超过11000次点赞。

全文下载：

YuNet: A Tiny Millisecond-level Face Detector

Wei Wu, Hanyang Peng, Shiqi Yu

https://link.springer.com/article/10.1007/s11633-023-1423-y

https://www.mi-research.net/en/article/doi/10.1007/s11633-023-1423-y

BibTex:

@Article{MIR-2022-09-275,
author = {Wei Wu and Hanyang Peng and Shiqi Yu},
journal = {Machine Intelligence Research},
title = {YuNet: A Tiny Millisecond-level Face Detector},
year = {2023},
volume = {20},
number = {5},
pages = {656-665},
doi = {10.1007/s11633-023-1423-y}
}

作者.png
纸刊免费寄送

Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务，如您对本篇文章感兴趣，请点击下方链接填写收件地址，编辑部将尽快为您免费寄送纸版全文！

说明：如遇特殊原因无法寄达的，将推迟邮寄时间，咨询电话010-82544737

收件信息登记：

https://www.wjx.cn‍/vm/eIyIAAI.aspx#

∨关于Machine Intelligence Research

Machine Intelligence Research（简称MIR，原刊名International Journal of Automation and Computing）由中国科学院自动化研究所主办，于2022年正式出版。MIR立足国内、面向全球，着眼于服务国家战略需求，刊发机器智能领域最新原创研究性论文、综述、评论等，全面报道国际机器智能领域的基础理论和前沿创新研究成果，促进国际学术交流与学科发展，服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划"，已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。

▼好文推荐▼

乔红院士团队 | 类脑智能机器人：理论分析与系统应用（机器智能研究MIR）

上海交大严骏驰团队 | 综述: 求解布尔可满足性问题(SAT)的机器学习方法

西电公茂果团队 | 综述: 多模态数据的联邦学习

高文院士团队 | 综述: 大规模多模态预训练模型

前沿观点 | 谷歌BARD的视觉理解能力如何？对开放挑战的实证研究

港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法

南航张道强教授团队 | 综述：用于脑影像基因组学的机器学习方法

ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法（机器智能研究MIR）

Luc Van Gool团队 | 深度学习视角下的视频息肉分割

专题综述 | 高效的视觉识别: 最新进展及类脑方法综述

北大黄铁军团队 | 专题综述：视觉信息的神经解码