博文

[转载]ListPose：轻量级隐式时空建模的视频姿态估计模型

已有 1910 次阅读 2025-4-6 08:53 |系统分类:论文交流|文章来源:转载

ListPose：轻量级隐式时空建模的视频姿态估计模型

武志洋，张志成，党永浩，尹建芹，唐进

（北京邮电大学智能工程与自动化学院，北京100876）

摘要：视频姿态估计在深度学习领域受到了广泛关注。与传统的基于图像的姿态估计方法相比，视频姿态估计利用帧间关系和时间线索来提供更准确和鲁棒的结果。然而，在视频中处理姿态估计仍然面临着建模帧依赖性和考虑现实应用延迟方面的挑战。为了解决这些问题，提出一种基于变换器架构的轻量级视频姿态估计模型。首先，放弃了繁重的姿势初始化模块，只保留了一个轻量级的帧编码器来简化模型。其次，引入了一种新的残差令牌初始化模块来建模帧依赖关系，并隐式捕获相邻帧之间的时空相关性。此外，采用TokenPose作为特征提取器，它利用自关注机制隐式地建模关键点之间的空间关系，有效地降低了模型参数和计算复杂度。在Penn Action数据集和Sub-JHMDB数据集上评估了我们的方法，这两个数据集是视频姿态估计的常用基准。结果表明：我们的方法在显著减少模型参数数量和计算复杂度的同时，实现了可比较的性能。

关键词：计算机视觉，视频姿态估计，Transformer，时空建模

点击分享码全文pdf浏览：https://rdcu.be/egxGD

Cite this article: Wu, Z., Zhang, Z., Dang, Y. et al. ListPose: Lightweight and Implicit Spatial-Temporal Modeling with TokenPose for Video-Based Pose Estimation. J. Shanghai Jiaotong Univ. (Sci.) (2025). https://doi.org/10.1007/s12204-025-2815-7

转载本文请联系原作者获取授权，同时请注明本文来自黄龙旺科学网博客。
链接地址：https://wap.sciencenet.cn/blog-45888-1480824.html

上一篇：[转载]多层组织穿刺过程中针偏转的预测
下一篇：[转载]基于三周期极小曲面种植体融合结构设计及其性能分析

收藏 IP: 202.120.12.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

黄龙旺

扫一扫，分享此博文

Yetta分享 http://blog.sciencenet.cn/u/yetta

博文

[转载]ListPose：轻量级隐式时空建模的视频姿态估计模型

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

黄龙旺

全部作者的其他最新博文

全部精选博文导读

Yetta分享 http://blog.sciencenet.cn/u/yetta

博文

[转载]ListPose：轻量级隐式时空建模的视频姿态估计模型

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

黄龙旺

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)