博文

自适应分割的视频点云多模式帧间编码方法

已有 1060 次阅读 2023-8-31 17:05 |系统分类:博客资讯

引用本文

陈建, 廖燕俊, 王适, 郑明魁, 苏立超. 自适应分割的视频点云多模式帧间编码方法. 自动化学报, 2023, 49(8): 1707−1722 doi: 10.16383/j.aas.c220549

Chen Jian, Liao Yan-Jun, Wang Kuo, Zheng Ming-Kui, Su Li-Chao. An adaptive segmentation based multi-mode inter-frame coding method for video point cloud. Acta Automatica Sinica, 2023, 49(8): 1707−1722 doi: 10.16383/j.aas.c220549

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220549

关键词

点云压缩，基于视频的点云压缩，三维帧间编码，点云分割，率失真优化

摘要

基于视频的点云压缩(Video based point cloud compression, V-PCC)为压缩动态点云提供了高效的解决方案, 但V-PCC从三维到二维的投影使得三维帧间运动的相关性被破坏, 降低了帧间编码性能. 针对这一问题, 提出一种基于V-PCC改进的自适应分割的视频点云多模式帧间编码方法, 并依此设计了一种新型动态点云帧间编码框架. 首先, 为实现更精准的块预测, 提出区域自适应分割的块匹配方法以寻找最佳匹配块; 其次, 为进一步提高帧间编码性能, 提出基于联合属性率失真优化(Rate distortion optimization, RDO)的多模式帧间编码方法, 以更好地提高预测精度和降低码率消耗. 实验结果表明, 提出的改进算法相较于V-PCC实现了−22.57%的BD-BR (Bjontegaard delta bit rate)增益. 该算法特别适用于视频监控和视频会议等帧间变化不大的动态点云场景.

文章导读

点云由三维空间中一组具有几何和属性信息的点集构成, 通常依据点的疏密可划分为稀疏点云和密集点云[1]. 通过相机矩阵或高精度激光雷达采集的密集点云结合VR头盔可在三维空间将对象或场景进行6自由度场景还原, 相较于全景视频拥有更真实的视觉体验, 在虚拟现实、增强现实和三维物体捕获领域被广泛应用[2−3]. 通过激光雷达反射光束经光电处理后收集得到的稀疏点云可生成环境地图, 以实现空间定位与目标检测等功能, 业已应用于自动驾驶、无人机以及智能机器人等场景[4-7]. 但相较于二维图像, 点云在存储与传输中的比特消耗显著增加[8], 以经典的8i动态点云数据集[9]为例, 在每秒30帧时的传输码率高达180 MB/s, 因此动态点云压缩是对点云进行高效传输和处理的前提.

为了实现高效的动态点云压缩, 近年来, 一些工作首先在三维上进行帧间运动估计与补偿, 以充分利用不同帧之间的时间相关性. 其中, Kammerl等[10]首先提出通过构建八叉树对相邻帧进行帧间差异编码, 实现了相较于八叉树帧内编码方法的性能提升; Thanou等[11]则提出将点云帧经过八叉树划分后, 利用谱图小波变换将三维上的帧间运动估计转换为连续图之间的特征匹配问题. 然而, 上述方法对帧间像素的运动矢量估计不够准确. 为了实现更精确的运动矢量估计, Queiroz等[12]提出一种基于运动补偿的动态点云编码器, 将点云体素化后进行块划分, 依据块相关性确定帧内与帧间编码模式, 对帧间编码块使用提出的平移运动模型改善预测误差; Mekuria等[13]则提出将点云均匀分割为N×N×N的块, 之后将帧间对应块使用迭代最近点(Iterative closest point, ICP)[14]进行运动估计, 以进一步提高帧间预测精度; Santos等[15]提出使用类似于2D视频编码器的N步搜索算法(N-step search, NSS), 在3×3×3的三维块区域中迭代寻找帧间对应块, 而后通过配准实现帧间编码. 然而, 上述方法实现的块分割破坏了块间运动相关性, 帧间压缩性能没有显著提升.

为了进一步提高动态点云压缩性能, 一些工作通过将三维点云投影到二维平面后组成二维视频序列, 而后利用二维视频编码器中成熟的运动预测与补偿算法, 实现三维点云帧间预测. 其中, Lasserre等[16]提出基于八叉树的方法将三维点云投影至二维平面, 之后用二维视频编码器进行帧间编码; Budagavi等[17]则通过对三维上的点进行二维平面上的排序, 组成二维视频序列后利用高效视频编码器(High efficiency video coding, HEVC)进行编码. 上述方法在三维到二维投影的过程中破坏了三维点间联系, 重构质量并不理想. 为改善投影后的点间联系, Schwarz等[18]通过法线将点映射于圆柱体上确保点间联系, 对圆柱面展开图使用二维视频编码以提高性能. 但在圆柱上的投影使得部分点因遮挡丢失, 影响重构精度. 为尽可能保留投影点数, Mammou等[19]根据点云法线方向与点间距离的位置关系, 将点云划分为若干Patch, 通过对Patch进行二维平面的排列以减少点数损失, 进一步提高了重构质量.

基于Patch投影后使用2D视频编码器进行编码, 以实现二维上的帧间运动预测与补偿的思路取得了最优的性能, 被运动图像专家组(Moving picture experts group, MPEG)正在进行的基于视频的点云压缩(Video-based point cloud compression, V-PCC)标准[20]所采纳, 但将Patch从三维到二维的投影导致三维运动信息无法被有效利用, 使得帧间压缩性能提升受到限制. 针对这一问题, 一些工作尝试在V-PCC基础上实现三维帧间预测, 其中, Li等[21]提出了一种三维到二维的运动模型, 利用V-PCC中的几何与辅助信息推导二维运动矢量以实现帧间压缩性能改善, 但通过二维推导得到的三维运动信息并不完整, 导致运动估计不够准确. Kim等[22]提出通过点云帧间差值确定帧内帧与预测帧, 帧内帧用V-PCC进行帧内编码, 预测帧依据前帧点云进行运动估计后对残差进行编码以实现运动补偿, 但残差编码依旧消耗大量比特. 上述方法均在V-PCC基础上实现了三维点云的帧间预测, 但无论是基于二维的三维运动推导还是帧间残差的编码, 性能改善都比较有限.

在本文的工作中, 首先, 为了改善三维上实现运动估计与补偿中, 块分割可能导致的运动相关性被破坏的问题, 本文引入了KD树(K-dimension tree, KD Tree)思想, 通过迭代进行逐层深入的匹配块分割, 并定义分割块匹配度函数以自适应确定分割的迭代截止深度, 进而实现了更精准的运动块搜索; 另外, 针对V-PCC中二维投影导致三维运动信息无法被有效利用的问题, 本文提出在三维上通过匹配块的几何与颜色两种属性进行相似性判别, 并设计率失真优化(Rate distortion optimization, RDO)模型对匹配块分类后进行多模式的帧间编码, 实现了帧间预测性能的进一步改善. 实验表明, 本文提出的自适应分割的视频点云多模式帧间编码方法在与最新的V-PCC测试软件和相关文献的方法对比中均取得了BD-BR (Bjontegaard delta bit rate)的负增益. 本文的主要贡献如下:

1)提出了针对动态点云的新型三维帧间编码框架, 通过自动编码模式判定、区域自适应分割、联合属性率失真优化的多模式帧间编码、结合V-PCC实现了帧间编码性能的提升;

2)提出了一种区域自适应分割的块匹配方法, 以寻找帧间预测的最佳匹配块, 从而改善了均匀分割和传统分割算法导致运动相关性被破坏的问题;

3)提出了一种基于联合属性率失真优化模型的多模式帧间编码方法, 在改善预测精度的同时显著减少了帧间编码比特.

图 1 V-PCC编码器框架

图 2 V-PCC从三维到二维投影(属性图)

图 3 改进的三维帧间编码框架

本文主要针对V-PCC在动态点云压缩中从三维到二维的投影使得三维帧间运动的相关性被破坏, 降低了帧间编码性能的问题, 提出了一种针对动态点云的三维帧间预测算法, 并设计了一个新型的动态点云帧间编码框架. 为了兼顾分割块的运动相关性的同时避免过度分割, 提出了区域自适应分割的块匹配方法, 以实现更精准的帧间运动估计; 为了确保压缩效率的前提下最大限度减少比特消耗, 提出了联合属性率失真优化模型的多模式帧间编码方法. 实验表明, 本文提出的方法有效利用了时间冗余, 改善了动态点云的三维帧间压缩性能, 总体上相较于V-PCC取得了−22.57%的BD-BR增益, 并与其他帧间改进算法的对比中均有不同程度的性能提升. 但需要说明的是, 本文的方法在面对帧间运动剧烈且纹理丰富的点云数据时帧间预测效果较为有限, 原因在于基于ICP的帧间配准只是在匹配块基础上进行刚性变换, 难以对具有复杂纹理的块进行帧间预测, 后续研究工作中, 我们将针对这类点云引入更合适的帧间预测算法.

作者简介

陈建

福州大学物理与信息工程学院副教授. 主要研究方向为视频编码, 压缩感知, 点云压缩和目标跟踪. E-mail: chenjian-fzu@163.com

廖燕俊

福州大学先进制造学院硕士研究生. 主要研究方向为点云分割和视频点云压缩. E-mail: liao.yanjun@foxmail.com

王适

福州大学物理与信息工程学院硕士研究生. 主要研究方向为多媒体技术. E-mail: wang_kuo@cib.com.cn

郑明魁

福州大学物理与信息工程学院副教授. 主要研究方向为计算机视觉, 点云与视频编码. 本文通信作者. E-mail: zhengmk@fzu.edu.cn

苏立超

福州大学计算机与大数据学院/软件学院讲师. 主要研究方向为多媒体信息安全. E-mail: fzu-slc@fzu.edu.cn

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3291369-1400992.html

上一篇：自适应变化响应的动态多目标进化算法
下一篇：基于渐进无迹卡尔曼滤波网络的人体肢体运动估计

收藏 IP: 117.114.9.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

自适应分割的视频点云多模式帧间编码方法

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

自适应分割的视频点云多模式帧间编码方法

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)