||
ListPose:轻量级隐式时空建模的视频姿态估计模型
武志洋,张志成,党永浩,尹建芹,唐进
(北京邮电大学 智能工程与自动化学院,北京100876)
摘要:视频姿态估计在深度学习领域受到了广泛关注。与传统的基于图像的姿态估计方法相比,视频姿态估计利用帧间关系和时间线索来提供更准确和鲁棒的结果。然而,在视频中处理姿态估计仍然面临着建模帧依赖性和考虑现实应用延迟方面的挑战。为了解决这些问题,提出一种基于变换器架构的轻量级视频姿态估计模型。首先,放弃了繁重的姿势初始化模块,只保留了一个轻量级的帧编码器来简化模型。其次,引入了一种新的残差令牌初始化模块来建模帧依赖关系,并隐式捕获相邻帧之间的时空相关性。此外,采用TokenPose作为特征提取器,它利用自关注机制隐式地建模关键点之间的空间关系,有效地降低了模型参数和计算复杂度。在Penn Action数据集和Sub-JHMDB数据集上评估了我们的方法,这两个数据集是视频姿态估计的常用基准。结果表明:我们的方法在显著减少模型参数数量和计算复杂度的同时,实现了可比较的性能。
关键词:计算机视觉,视频姿态估计,Transformer,时空建模
点击分享码全文pdf浏览:https://rdcu.be/egxGD
Cite this article: Wu, Z., Zhang, Z., Dang, Y. et al. ListPose: Lightweight and Implicit Spatial-Temporal Modeling with TokenPose for Video-Based Pose Estimation. J. Shanghai Jiaotong Univ. (Sci.) (2025). https://doi.org/10.1007/s12204-025-2815-7
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-5-8 13:22
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社