博文

基于边缘特征增强的任意形状文本检测网络

已有 995 次阅读 2023-6-12 16:38 |系统分类:博客资讯

引用本文

白鹤翔, 王浩然. 基于边缘特征增强的任意形状文本检测网络. 自动化学报, 2023, 49(5): 1019−1030 doi: 10.16383/j.aas.c220429

Bai He-Xiang, Wang Hao-Ran. A new arbitrary-shaped text detection network by reinforcing edge features. Acta Automatica Sinica, 2023, 49(5): 1019−1030 doi: 10.16383/j.aas.c220429

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220429

关键词

场景文本检测，任意形状，边缘区域，浅层特征，渐进尺度扩张网络

摘要

在场景文本检测方法中, 文本实例的边缘特征与其他特征在大多数模型中都是以同样的方式进行处理, 而准确检测相邻文本边缘区域是正确识别任意形状文本区域的关键之一. 如果对边缘特征进行增强并使用独立分支进行建模, 必能有效提高模型的标识准确率. 为此, 提出了三个用以增强边缘特征的网络模块. 其中, 浅层特征增强模块可有效增强包含更多边缘特征的浅层特征; 边缘区域检测分支将普通特征和边缘特征进行区分以对目标的边缘特征进行显式建模; 而分支特征融合模块可将两种特征在识别过程进行更好的融合. 在将这三个模块引入渐进尺度扩张网络 (Progressive scale expansion network, PSENet) 之后, 相关消融实验表明这三个模块的单独使用及其组合均可进一步增加网络的预测准确率. 此外, 在三个常用公开数据集上与其他十个最新模型的比较结果表明, 改进后得到边缘特征增强网络 (Edge-oriented feature reinforcing network, EFRNet) 的识别结果具有较高的F1值.

文章导读

从复杂多变的自然场景中快速有效地检测文本信息区域, 即场景文本检测, 在实际应用中具有重要的应用价值. 其主要任务是将自然场景图像中的文本区域标注出来, 以便为其他应用提供基础. 例如, 正确地识别场景文本区域能够有效提高即时翻译[1]和场景理解[2]的准确率, 并为其后续应用如自动驾驶[3]等提供更为有效的支撑.

场景文本检测方法的准确率与文本区域的特征有效建模密切相关. 经典的检测方法主要使用了文本区域的形状、对比度、以及边缘强度和边缘密度等特征在不同的框架下进行文本区域检测[4-6]. 深度学习场景文本检测方法能够挖掘更深层的文本区域特征, 特别是多尺度的复杂特征, 因此其相较于经典方法有着更高的准确率[7-8].

目前, 基于深度学习的文本检测方法使用了两种不同的策略进行文本区域的识别. 第一种策略是通过逐像元多尺度特征预测候选文本框, 再对候选文本框进行分类从而挑选出正确的文本区域位置, 此类方法被称为基于回归的检测方法[9-12]. 另一种策略也被称为基于语义分割的检测方法[13-15], 这一策略直接使用多尺度进行逐像元的文本/非文本二分类, 再进行区域融合以得到准确的文本区域.

由于实际场景中的文本区域复杂多变, 因此对任意形状文本区域的正确检测是提高识别准确率的关键. 如果缺乏对这一因素的考虑, 会导致识别结果的各种异常. 例如, 仅使用矩形候选框的基于回归的检测方法难以避免地会出现不同文本实例之间的混杂交错. 基于语义分割的方法虽然不再受限于矩形文本框, 但是如何利用文本区域复杂形状特征区分相邻文本的边缘区域仍然是一个有待解决的难题. 因此, 对于任意形状文本区域的检测成为了近年来的一个研究热点.

为此, 很多研究工作在上述两种策略的基础上进行相应改进, 以应对任意形状文本区域检测的挑战. 在基于回归的文本检测方法方面, 通常是利用文本区域的特征改进候选框的形状, 而不再局限于矩形的候选框. 例如, TextRay利用任意形状文本区域中心点与其轮廓在不同方向上距离的不同以识别非矩形的候选框[16]; ABCNet (Adaptive bezier-curve network) 使用文本区域边缘特征点通过贝塞尔曲线以重建文本实例的非矩形轮廓[17]; FCENet (Fourier contour embedding network) 则在频率域预测傅里叶特征向量, 然后通过这些特征向量在图像空间域中重建文本实例轮廓点的位置坐标[18]. 此外, 还有一些方法使用分割子网络的方式对文本区域进行二次调整以得到精确的文本实例边界[19-20]或者使用自底向上聚合识别出的文本组件以重建文本实例[21].

在基于语义分割的文本检测方法方面, 主要是通过各种方式增加不同文本实例之间以及文本实例同背景之间的区分度以提高文本区域检测的准确度. 其中, 一些方法通过逐步扩张的方式从文本实例的核心逐步添加区分度高的像元或区域以最终确定文本实例的轮廓, 如渐进尺度扩张网络 (Progressive scale expansion network, PSENet)[22]、Centripetal Text[23] 以及CSENet (Conditional spatial expansion network)[24]. 一些方法将像元特征嵌入到一个新的空间以增加实例像元的内聚性[25]. 此外还有一些方法通过注意力机制强化近邻信息以更好地区分不同文本实例[26].

实际上, 不论采用何种改进方法以识别任意形状的文本区域, 文本区域的边缘识别以及骨干网络获取的像元特征都有着不可替代的作用. 在基于深度学习的模型中, 边缘信息和像元特征的提取是相辅相成的. 更丰富的像元特征有助于更好地确定文本区域的边缘, 同时利用训练集中定义良好的边缘信息也能够帮助神经网络提取出更易于识别边缘区域的像元特征. 因此, 在深度学习模型中通过引入边缘信息增强像元特征的方式可以更好地从原始图像中提取出同文本边界相关的像元特征, 从而增加不同文本实例之间以及文本实例同背景之间的区分度, 并进一步提高任意文本区域的检测准确度.

基于上述讨论, 本文以PSENet为例, 通过引入边缘预测模块和特征增强模块以进一步提高任意形状场景文本检测的准确度. 其中, 边缘预测模块增加了文本边缘区域作为预测目标, 使得网络在训练过程中可以引入文本边缘结构信息; 而特征增强模块将像元的局部特征进行强化, 从而使其更易于提取文本的边缘区域特征. 本方法的优点在于所增加的文本边缘预测分支增强了同边缘密切相关的特征, 使其更易于识别自然场景下的任意形状文本框. 通过在三个公开数据集上与TextSnake、PSENet、FCENet等10个最新任意形状场景文本检测方法的对比实验表明, 在引入这两个模块后的PSENet, 即边缘特征增强网络 (Edge-oriented feature reinforcing network, EFRNet) 的F1值比原始PSENet提高了至少7%, 比基于PSENet的PAN++ 也提高了1.4% 到4.7%, 同时相对于其他方法也具有较高的F1值. 此外, 相关消融实验表明, 引入本文所提出的不同模块后F1值可提高1% 到3%.

图 1 EFRNet网络整体架构

图 2 浅层特征增强模块

图 3 分支特征融合模块

为了在任意形状文本检测中更充分地利用文本实例的边缘信息, 本文通过对边缘特征进行增强的方式以PSENet为基础提出了一种新的深度学习模型EFRNet. 在特征提取模块, EFRNet对FPN所提取的浅层特征进行增强以避免忽略一些与边缘密切相关的图像特征. 在预测模块, 该模型通过增加边缘预测分支的方式对文本实例特征和文本边缘特征进行分流, 以更好地提取出图像中文本区域的边缘特征. 此外, 还在最终预测文本框位置和形状时将文本实例特征和文本边缘特征进行融合以更好地利用所得的边缘特征. 消融实验表明, 这些模块的引入进一步提高了任意形状场景文本检测的准确度. 此外, 在ICDAR 2015、Total-Text以及CTW1500数据集上与其他10种代表性方法的比较结果表明, EFRNet具有更优的识别准确率.

尽管同其他方法相比EFRNet可以提供更准确的识别结果, 该模型的参数量为PSENet的1.14倍, 因此其需要更多的时间才能完成训练. 此外, 该模型还需要对训练数据中文本实例进行预处理以得到其边缘部分, 为边缘预测分支提供支撑. 在未来的工作中, 我们将进一步优化这一模型以降低其参数量, 同时设计更好的数据预处理方法. 此外, 现有模型只是隐含地使用了文本实例的边缘信息, 并未对其进行显式建模. 可以设想, 当将边缘信息引入这些网络模型后, 其模型性能必将会有进一步的提高. 然而, 不同的网络具有不同的结构和特点, 因此需要在以后的工作中, 对如何进行边缘信息的有效建模进行深入研究, 以使其适合于不同结构的深度学习模型. 最后, 一些最新的模型引入了文本内容标注以进一步提高模型的预测精度, 如ABCNet v2, Mask textspotter v3[45] 等. 因此, 未来的工作中也可以适当考虑在引入文本标注内容的基础上避免文本内容误识别其所带来的副作用, 以进一步提高EFRNet的分类精度.

作者简介

白鹤翔

山西大学计算机与信息技术学院副教授. 主要研究方向为空间数据挖掘和图像处理. 本文通信作者. E-mail: baihx@sxu.edu.cn

王浩然

山西大学计算机与信息技术学院硕士研究生. 主要研究方向为深度学习和场景文本检测. E-mail: wanghr_sxu@163.com

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3291369-1391528.html

上一篇：城市污水处理过程自适应滑模控制
下一篇：基于区块链的策略隐藏大数据访问控制方法

收藏 IP: 117.114.9.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于边缘特征增强的任意形状文本检测网络

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于边缘特征增强的任意形状文本检测网络

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)