||
本文探讨了全局上下文信息在人群计数任务中的作用。具体来说,本文使用纯Transformer模型,从重叠的图像块中提取出包含有全局信息的特征。受分类任务的启发,本文在输入序列中添加了一个上下文token,以促进Transformer各层图像块所对应的token之间的信息交换。由于Transformer没有明确地建模通道交互(经过广泛验证有效),本文提出了一个token-attention模块(TAM),利用上下文token所提供的通道注意力来重新校准token特征。除此之外,该模块还通过回归标记模块(RTM)来预测图像中的总人数,做为辅助任务。在包括ShanghaiTech、UCF-QNRF、JHU-CROWD++和NWPU在内等多个数据集上进行的广泛实验表明,证明本文所提出的上下文提取技术可以显著提高基线方法性能。相关成果已发表于《机器智能研究(英文)》2024年第4期中。
图片来自Springer
全文下载:
Rethinking Global Context in Crowd Counting
Guolei Sun, Yun Liu, Thomas Probst, Danda Pani Paudel, Nikola Popovic & Luc Van Gool
https://link.springer.com/article/10.1007/s11633-023-1475-z
https://www.mi-research.net/article/doi/10.1007/s11633-023-1475-z
起初,计算图像中人群规模这一问题被等同于识别和计算人群中个体数量。然而,这种直接的方法已被证实效果不佳,因为一般检测器会受到个体尺寸过小和拥挤区域出现严重遮挡的影响。在这种情况下,通常一个人只能覆盖少量像素块,并且只能看见较少的身体部位(往往只有头部)。
因此,最前沿的人群计数方法都依赖于对人群密度图的预测,这是一种局部的、逐像素的检测方法。鉴于此,底层网络架构需要整合不同位置和范围的上下文信息。由于给定的人群密度可能出现多种多样的情况,因此这一点至关重要。换句话说,整合全局信息的能力使得密度估计能够适应给定场景,超越局部估计的狭窄视野。几何和语义是场景上下文的两个主要方面,可用于帮助实现更加准确的人群计数。可惜的是,即使我们设法为其建模并表征此类知识,其获取过程也非常繁琐,因此对于很多基于图像的人群计数应用场景来说并不实用。这也反映在本文所提及的最流行的人群计数挑战数据集的配置问题。
从好的一面来看,即使在缺乏此类直接知识的情况下,人们仍然可以在概念层面通过研究归纳偏置,来从几何和语义学习的最新进展中受益。事实上,过去十年计算机视觉的发展证明了通过隐式学习从单个图像中捕捉丰富的几何和语义信息的表示的可能性。最近,已经证明了全局交互相对于卷积神经网络(CNN)的优势,包括单目深度预测的几何特征以及分割中的语义特征。上述研究将Transformer模型的成功归因于其全局感受野,这之前一直是基于卷积神经网络的方法的瓶颈。此外,卷积神经网络在设计上对所有位置都采取相同的操作,使其成为利用特定场景几何和语义组成信息的次优选择。
由于几何和语义理解是完成人群计数任务时场景上下文的关键方面,本文假设Transformer 在这些方面的卓越能力使其更适合人群计数的归纳偏差。为了验证这个假设,本文将视觉Transformer应用于人群计数。
与图像分类不同,人群计数是一项密集型预测任务。根据之前的讨论,对于人群计数的学习也基于对图像全局上下文的理解。为了获得密集预测所需要的空间信息和必要的场景上下文,本文保留了局部token(代表图像块)和上下文token(代表图像上下文)。接着又引入了一个token注意力模块(TAM)来改进上下文token的编码特征。通过使用回归标记模块(RTM),可以进一步指导上下文标记的学习,该模块可以计算人群总数回归的辅助损失。随后,使用两个卷积层,将改进过的Transformer输出映射到所需要的人群密度图中。请参阅图1,以了解整体框架。
图1 网络总览
具体来说,本文提出的TAM旨在解决以下观察结果:视觉transformers中的多头自注意力 (MHSA)仅模拟空间交互,而经过验证的通道交互也被证明具有至关重要的有效性。为此,TAM通过对特征通道进行条件重新校准,将上下文标记印在本地标记上,从而明确地模拟通道相互依赖性。目前广泛使用的,以实现这一目标的方法包括SENet和CBAM。他们使用简单的聚合技术(例如全局平均池化或全局最大池化)对输入特征进行处理以获得逐通道统计数据(全局抽象),然后使用这些数据来捕获逐通道依赖关系。对于Transformer,本文提出了一种自然而优雅的通道关系建模方法,即使用上下文token扩展输入序列,并引入TAM通过由上下文标记提供的通道注意力重新校准局部标记。跨特征通道的额外注意力进一步促进了全局上下文的学习。
本文还采用了上下文token,它与 Transformer中的其他token交互,以回归整个图像的总人群数量。这是通过提出的RTM实现的,其中包含一个两层的多层感知器(MLP)。一方面,TAM 和RTM的协同作用迫使上下文token从所有局部token中收集和分发图像级计数估计,从而更好地提高上下文token特征。另一方面,它有助于学习更好的任务底层特征并减少网络内的过度拟合,类似于辅助任务学习。
总而言之,本文通过学习全局上下文背景的特征,为密度监督人群计数提供了另外一种视角。具体来说,本文引入了一个上下文token,该token通过token注意力模块和回归token模块的新颖框架,来优化局部特征token。因此,这一框架解决了卷积神经网络(CNN)在人群计数中捕捉全局上下文方面的短板。我们在各种流行的数据集上进行了实验,包括ShanghaiTech、UCF-QNRF、JHU-CROWD++和NWPU。实验结果表明,本文所提出的上下文提取计数能够在显著提升基线方法性能,从而为人群计数开辟出了一条新的路径。
全文下载:
Rethinking Global Context in Crowd Counting
Guolei Sun, Yun Liu, Thomas Probst, Danda Pani Paudel, Nikola Popovic & Luc Van Gool
https://link.springer.com/article/10.1007/s11633-023-1475-z
https://www.mi-research.net/article/doi/10.1007/s11633-023-1475-z
BibTex:
@Article {MIR-2023-04-056,
author={Guolei Sun, Yun Liu, Thomas Probst, Danda Pani Paudel, Nikola Popovic, Luc Van Gool },
journal={Machine Intelligence Research},
title={Rethinking Global Context in Crowd Counting},
year={2024},
volume={21},
issue={4},
pages={640-651},
doi={10.1007/s11633-023-1475-z}}
MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!
说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737
收件信息登记:
https://www.wjx.cn/vm/eIyIAAI.aspx#
关于Machine Intelligence Research
Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%,2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4,位列人工智能及自动化&控制系统两个领域JCR Q1区。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-15 22:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社