引用本文
吴晨阳, 张勇, 韩树豪, 郭春乐, 李重仪, 程明明. 基于深度学习的视频插帧研究进展. 自动化学报, 2025, 51(8): 1760−1776 doi: 10.16383/j.aas.c240572
Wu Chen-Yang, Zhang Yong, Han Shu-Hao, Guo Chun-Le, Li Chong-Yi, Cheng Ming-Ming. Research advances on deep-learning based video frame interpolation. Acta Automatica Sinica, 2025, 51(8): 1760−1776 doi: 10.16383/j.aas.c240572
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240572
关键词
视频插帧,深度神经网络,卷积神经网络
摘要
视频插帧技术是视频处理领域的研究热点问题. 它通过生成中间帧来提高视频的帧率, 从而使视频播放更加流畅, 在老视频修复、电影后期制作和慢动作生成等领域发挥着重要的作用. 随着深度学习技术的迅猛发展, 基于深度学习的视频插帧技术已经成为主流. 本文全面综述现有的基于深度学习的视频插帧工作, 并且深入分析这些方法的优点与不足. 随后, 详细介绍视频插帧领域的常用数据集, 这些数据集为视频插帧相关研究和算法训练提供重要支撑. 最后, 对当前视频插帧研究中仍然存在的挑战进行深入思考, 并且从多个角度展望未来的研究方向, 旨在为该领域后续的发展提供参考.
文章导读
在视频拍摄或传输中, 由于摄像机性能、网络带宽、视频编码器和存储空间等因素的限制, 往往会导致获取到的视频存在帧率下降的问题. 帧率的下降不仅直接降低视频的视觉质量, 还严重影响用户的观看体验. 例如, 视频的低帧率导致的画面不流畅、观看舒适度降低等. 因此, 如何提高已有视频的帧率, 提升视频质量, 一直以来都是视频处理技术领域中亟须解决的问题.
为显著提升视频质量并解决播放不流畅的问题, 视频插帧(Video frame interpolation, VFI)技术被提出. 该技术旨在现有视频序列中生成新的帧, 以提高视频帧率, 进而实现更流畅、更平滑的视频播放效果, 并显著改善视觉体验. 视频插帧的研究包含图像处理、计算机视觉及优化理论等领域的核心问题, 例如图像特征提取、运动估计和最优化算法等. 视频插帧不仅作为这些基础问题的一个实际应用场景, 同时也促进相关领域的发展. 因此, 视频插帧技术不仅在学术界引起广泛关注, 更成为计算机视觉等相关领域研究的热门方向, 其研究价值和实用意义不容忽视.
视频插帧算法的研究起源可以追溯到20世纪80年代末到90年代初. 随着计算机视觉和图像处理领域的发展, 人们开始探索如何通过技术手段改进视频质量, 特别是如何在不增加视频原始拍摄成本的情况下提高视频播放的帧率.
最初, 视频插帧技术主要依靠传统的图像处理技术, 如帧间差分、光流估计等方法来合成中间帧. 随着时间的推移, 特别是进入21世纪以来, 深度学习技术的发展极大地推动视频插帧技术的发展. 从2015年开始, 利用深度神经网络进行视频插帧的研究逐渐增多, 研究者开始尝试使用卷积神经网络、Transformer和扩散模型(Diffusion model)等深度学习模型来自动学习视频帧之间的运动和变化规律, 从而更准确、更自然地生成中间帧.
视频插帧技术的应用范围极为广泛, 涵盖老旧视频的修复、虚拟现实(Virtual reality, VR)、增强现实(Augmented reality, AR)、动画及电影制作以及视频慢动作生成等多个领域. 特别值得一提的是, 在生成式人工智能(Artificial intelligence generated content, AIGC)迅猛发展的当下, 以Sora为代表的视频生成技术对社会生产与生活产生较大的影响. 为制作更加流畅的视频内容, 这类视频生成技术通常只生成一段视频的关键帧, 随后使用视频插帧技术来实现视频流的平滑化. 这不仅展现视频插帧技术在支持AIGC视频创作方面的关键作用, 也突显其在当前人工智能技术快速进步背景下的重要应用价值.
在2015年之前, 视频插帧算法的研究多集中在如何对光流进行准确的估计. 如图1所示, 随着深度学习技术的迅猛发展, 基于深度学习的视频插帧算法分为基于相位的方法、基于核的方法、基于生成的方法和基于光流的方法, 各个方法的提出和发展均推动视频插帧技术的进步. 基于相位的方法不需要显式的运动估计, 通过简单的像素级相位调整能够快速生成中间帧. 基于核的方法通过学习卷积核的知识来捕捉运动信息, 能够有效处理遮挡和动态模糊. 基于生成的方法能够直接预测中间帧, 在复杂运动和光照变化的场景中表现出明显的优势. 基于光流的方法能精准建模视频运动, 成为当前视频插帧领域的研究热点, 也被认为是最具潜力的方向. 根据光流计算方式的不同, 基于光流的方法可分为基于前向翘曲的视频插帧方法和基于后向翘曲的视频插帧方法. 前者能更加显式地建模物体运动, 但可能导致空洞问题; 而后者通过隐式建模避免了空洞问题, 但在某些应用场景中性能会有所下降. 本文将重点介绍基于深度学习的视频插帧技术及其典型方法. 第1节详细梳理目前主流的基于深度学习的视频插帧技术; 第2节介绍视频插帧中常用的数据集; 最后对该方向存在的问题进行思考和展望, 并总结本文的研究内容.
图 1 基于深度学习的视频插帧发展流程图
近年来对视频插帧技术的研究热情更为高涨, 2022年至2024年提出的视频插帧算法数量超过本文统计算法总数的47%. 与文献[40−41]对视频插帧领域进行的综述相比, 本文在统计范围和分析视角方面存在显著区别. 在统计范围方面, 现有综述统计截止于2021年, 而本文的统计时间跨度覆盖到2024年, 全面纳入近三年来涌现的新算法与研究成果. 这使得本文不仅涵盖前人综述中的内容, 还囊括后续三年间该领域的重要发展, 例如, 采用Transformer架构的VFIT[22]、实时轻量化的插帧网络RIFE[24]和使用扩散模型进行帧预测的LDMVFI[34], 能够更全面地展现视频插帧技术的发展脉络和最新动态. 在分析视角方面, 本文深入剖析在大模型快速发展的背景下视频插帧技术面临的挑战与机遇, 而且针对多种插帧挑战提出更为深刻的思考, 为推动该技术的进一步发展提供新的视角.
视频插帧技术在深度学习的推动下取得显著进展, 但仍面临复杂运动场景、特殊场景插帧、实时处理能力和高分辨率视频处理等挑战. 复杂运动如非线性运动和遮挡问题影响了光流方法的精度, 而特殊场景如多图层运动和突变情况也增加了插帧难度. 实时处理在低算力设备上的应用受限, 高分辨率视频则要求更高的计算效率和细节保留. 大模型技术的兴起为视频插帧带来新的机遇, 它通过更强的表示能力、感知优化能力和高效的时空建模, 显著提高了插帧结果的质量. 未来, 优化算法效率、提高适应性、结合深度学习与硬件加速, 并探索大模型的潜力, 将是推动视频插帧技术发展的关键问题.
作者简介
吴晨阳
南开大学计算机学院博士研究生. 主要研究方向为深度学习和视频插帧. E-mail: wucy0519@gmail.com
张勇
重庆长安望江工业集团有限公司工程师, 南开大学计算机学院博士研究生. 主要研究方向为目标检测与跟踪和多模态感知数据融合. 本文通信作者. E-mail: zhangyongtju@163.com
韩树豪
南开大学计算机学院硕士研究生. 主要研究方向为深度学习和视频插帧. E-mail: hansh@mail.nankai.edu.cn
郭春乐
南开大学计算机学院副教授, 南开国际先进研究院(深圳福田)副教授. 主要研究方向为计算成像, 图像增强与复原. E-mail: guochunle@nankai.edu.cn
李重仪
南开大学计算机学院教授, 南开国际先进研究院(深圳福田)教授. 主要研究方向为计算成像. E-mail: lichongyi@nankai.eud.cn
程明明
南开大学计算机学院教授, 南开国际先进研究院(深圳福田)教授. 主要研究方向为人工智能, 计算机视觉和计算机图形学. E-mail: cmm@nankai.edu.cn
转载本文请联系原作者获取授权,同时请注明本文来自Ouariel科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3291369-1502892.html?mobile=1
收藏