博文

从视频到语言: 视频标题生成与描述研究综述

已有 2456 次阅读 2022-6-20 16:42 |系统分类:博客资讯

引用本文

汤鹏杰, 王瀚漓. 从视频到语言: 视频标题生成与描述研究综述. 自动化学报, 2022, 48(2): 375−397 doi: 10.16383/j.aas.c200662

Tang Peng-Jie, Wang Han-Li. From video to language: Survey of video captioning and description. Acta Automatica Sinica, 2022, 48(2): 375−397 doi: 10.16383/j.aas.c200662

http://aas.net.cn/cn/article/doi/10.16383/j.aas.c200662

关键词

视频描述,卷积神经网络,循环神经网络,语段生成,情感表达,逻辑语义

摘要

视频标题生成与描述是使用自然语言对视频进行总结与重新表达. 由于视频与语言之间存在异构特性, 其数据处理过程较为复杂. 本文主要对基于“编码−解码” 架构的模型做了详细阐述, 以视频特征编码与使用方式为依据, 将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法, 并对各类模型进行了归纳与总结. 最后, 对当前存在的问题及可能趋势进行了总结与展望, 指出需要生成融合情感、逻辑等信息的结构化语段, 并在模型优化、数据集构建、评价指标等方面进行更为深入的研究.

文章导读

视频标题生成与描述任务是对给定的视频进行特征抽象, 并将其转换为自然语言, 对视觉内容进行结构化总结与重新表达. 它与目前流行的图像描述任务一样, 同属于计算机视觉高层语义理解范畴, 但鉴于视频数据的时空特性与语义的多样性、复杂性, 其比图像描述更具挑战性.

如图1所示, 它不仅需要检测出空间域中的物体、场景、人物等静态要素, 还要能够识别时间域上的动作及事件, 反映各视觉语义对象的时空变化, 最后选择合适的词汇及句式结构将其组合在一起, 形成符合人们表达习惯的描述语句. 该任务对于自动解说、导航辅助、智能人机环境开发等领域应用前景广阔, 在推动旅游、教育及计算机学科本身发展等方面意义巨大. 但由于该任务涉及计算机视觉、自然语言处理, 甚至社会心理学等学科, 数据处理过程较为复杂, 具有很大的挑战性.

图 1 视频标题生成与描述任务示例

视频标题生成与描述研究历史较为悠久. 在其发展早期, 人们主要借助于SIFT特征(Scale-invariant feature transform, SIFT)[1]、方向梯度直方图特征(Histogram of oriented gradient, HOG)[2]等手工特征, 采用统计的方式对视频内容进行抽象, 提取视频中的语义特征, 然后运用机器学习、分类/识别、检索、检测等技术获取视觉语义对象, 并将其按照预定模板或规则填入相应位置, 组成可读的描述句子[3-6]. 后来, 人们借鉴机器翻译的流程, 设计出能够生成句式更为灵活、用词更为丰富的“编码−解码” 框架结构, 提升了生成句子质量[7]. 但受限于手工特征的表达能力, 其生成的句子在准确性和语义丰富程度等方面与人工表达仍有较大差距, 难以满足人们的需求. 随着深度学习技术的发展, 研究人员使用大规模训练数据对深度卷积神经网络(Deep convolutional neural networks, DCNN)进行优化[8-11], 并将其应用于视频特征提取[12-14]. 深度特征更加抽象, 表达能力更强, 将其与循环神经网络(Recurrent neural networks, RNN)进行结合, 使得生成的句子中词汇更加准确、语义更为丰富. 目前, CNN-RNN框架已成为视觉描述任务的基础架构. 在此基础上, 研究人员结合三维卷积神经网络(3D CNN)[15-16]、门限循环单元(Gated recurrent unit, GRU)[17]、注意力机制[18]、视觉概念/属性机制[19]等, 设计了多种更为复杂的模型与算法, 进一步改善了视频标题与描述的生成质量.

除对简单视频进行高度总结与抽象, 为其生成简单描述之外, 人们也在寻求对更为复杂的视频进行精细化表达, 或以事件/场景变化为依据, 对其中的视觉语义片段进行更为细致的描述, 或者提取整个视频的逻辑语义, 将各片段描述组合为具有一定逻辑结构的描述语段等. 但由于视频数据的复杂性, 各视觉语义对象本身的变化、各对象之间的逻辑关联及其交互等仍存在建模困难、挖掘与利用不充分等弊端. 同时, 将其映射为更为抽象的词汇表达与逻辑语段也在准确性、连贯性及语义性等方面存在较大挑战, 生成的描述难以应用在实际场景中. 此外, 在复杂视频的情感挖掘与个性化表达方面, 目前尚无较为有效的方法与模型, 生成的描述缺乏生动性与吸引力, 且难以对隐含在视频内部的潜在语义及可能的外延信息进行推理显化与表述, 视觉信息与语言之间的语义鸿沟仍然较为明显.

目前已有部分工作对视频描述任务进行梳理与总结, 如Aafaq等总结了当前视频描述的主流方法、数据集和评价指标, 但他们侧重于从学习策略(如序列学习、强化学习等)上对各模型进行归类分析[20]. Li等则从更大的视角出发, 系统总结了视觉(包括图像和视频)到语言的建模范式, 并从视觉特征编码方式的层面上对各视频描述主流工作进行了介绍[21]. 本文参考了他们的思路, 但为了更加详细而清晰地呈现视频标题与描述生成的研究脉络, 首先回顾了视频描述研究的发展历史, 对其中典型的算法和模型进行了分析和总结. 然后对目前流行的方法进行了梳理, 尤其是基于深度网络的模型框架, 以视频特征编码方式为依据, 按照不同的视觉特征提取与输入方式, 将各类模型分别归类到基于视觉均值/最大值特征的方法、基于RNN网络序列建模的方法、基于3D卷积网络的方法, 以及基于混合特征编码的方法. 在每类方法中, 首先对视频简单描述模型进行了举例与概括, 然后对视频密集描述、段落描述等精细化表达模型做了分析与总结. 此外, 还介绍了视频描述任务的各类常用验证数据集及其评价指标体系, 列举了部分典型模型的性能表现, 并对结果进行了对比分析. 最后对视频描述任务面临的问题及可能研究方向进行了阐述与说明.

图 3 基于视觉均值/最大值特征的视频描述框架

图 9 含有情感与动态时序信息的复杂视频示例

本文系统回顾了视频标题与描述生成的研究历史, 分析了其研究现状与前沿动态, 对当前的主流模型进行了梳理、归纳, 并指出了部分模型的优越性及可能的局限性. 在未来的工作中, 以下几个方面值得进一步研究与探索:

1)在含有多个场景、人物及事件的复杂视频中, 对其逻辑语义的发现、表征及嵌入的研究尚存在大量空白. 在具体研究中, 不仅要分析视觉信息中各物体、人物、事件之间的关系, 还需要将其映射为自然语言的具体成分, 合理地嵌入到生成的句子中, 实现视频的精细化、结构化表达与描述. 为解决该问题, 一方面可借助于视觉推理技术, 以目标识别与检测等方法完成视觉对象的感知与发现, 以关系检测、图网络等方法发现并构建相应的视觉关系及其演化拓扑, 完成视觉关系的知识图构建与关联推理; 另一方面, 研究视觉关系与语言逻辑之间的映射与转换, 合理使用视觉属性、视觉概念等先验知识, 设计更为鲁棒的层次化序列模型, 实现视觉关联语义到语言逻辑语义的自然嵌入.

2)视频描述模型的学习代价比一般的分类、识别等任务更为高昂, 其训练数据的收集与标注常耗费大量的人力与物力, 且质量也难以管控. 针对这一问题, 可借鉴零样本与小样本学习技术, 通过样本中的概念与属性推理, 以较少的训练数据实现模型较为充分的优化, 生成较为流畅、语义较为丰富、质量较为可靠的描述句子. 同时也可结合迁移学习及强化学习策略, 引入域外知识, 对模型参数进行快速优化, 或通过不断试错, 增强模型对于正确解的敏感程度, 实现模型在样本受限情况下的自主学习. 除研究模型的优化策略外, 同样也需要构建更为完备的相关数据集, 对其构建方法、标注规则及其质量管控等方面作出更为有益的尝试, 以质量更优的训练数据推进视频描述任务走向实际应用.

3)在各种复杂视频中, 尤其是包含人物的视频, 其内容常包含丰富的情感变化及隐含语义, 同时不同的视频内容对人们也会产生相应的情感影响或个人理解. 而目前人们在研究视频描述时, 往往只关注其中的事实表达, 对情感、个性化及隐含信息关注较少, 造成生成的句子趣味性、可读性不强. 为此, 需要结合人类的情感心理及视觉情感发现技术, 在表情、动作及上下文语义环境上建立其与情感的映射关系, 并通过视觉属性/概念、注意力机制等技术将情感及个性化信息有机嵌入到生成的句子中. 同时加强对视频描述可解释性的研究, 构建相应的知识图谱, 并结合零样本学习策略, 通过对现有知识的学习, 对视觉信息之外的隐含语义进行预测和推理, 进一步增强生成句子的可用性.

4)视觉描述任务的评价内容及过程比其他视觉任务更加复杂, 不仅需要判断生成句子对于视频中物体、人物、动作及关系描述的准确性, 还需要对句子的连贯性、语义性及逻辑性进行衡量. 目前的策略多是借鉴机器翻译的评价指标, 评价内容较为单一. 当前虽然也有如CIDEr、SPICE等面向视觉描述任务的评价方法, 但在一些更具针对性的评价任务中, 如对于情感、个性化及逻辑语义的判断与评价, 这些方法都难以对其进行有效的衡量. 因此, 需要结合现有的评价方法设计思路, 开发更为合理的具有针对性及综合性的指标体系, 为模型及其描述提供更为客观、公平的评价机制, 尤其是为强化学习的模型优化方法, 提供更为贴近人们描述与评价习惯的学习与反馈策略.

作者简介

汤鹏杰

井冈山大学电子与信息工程学院副教授. 主要研究方向为机器学习, 计算机视觉, 多媒体智能计算. E-mail: tangpengjie@jgsu.edu.cn

王瀚漓

同济大学计算机科学与技术系教授. 主要研究方向为机器学习, 视频编码, 计算机视觉, 多媒体智能计算. 本文通信作者. E-mail: hanliwang@tongji.edu.cn

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3291369-1343787.html

上一篇：具有输入约束和输出噪声的不确定系统级联线性自抗扰控制
下一篇：明日直播预告‖自动化前沿热点讲堂之第十八讲

收藏 IP: 222.131.244.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

从视频到语言: 视频标题生成与描述研究综述

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

从视频到语言: 视频标题生成与描述研究综述

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)