IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

深度强化学习联合回归目标定位

已有 912 次阅读 2023-6-16 11:10 |系统分类:博客资讯

引用本文

 

姚红革, 张玮, 杨浩琪, 喻钧. 深度强化学习联合回归目标定位. 自动化学报, 2023, 49(5): 10891098 doi: 10.16383/j.aas.c200045

Yao Hong-Ge, Zhang Wei, Yang Hao-Qi, Yu Jun. Union regression object localization based on deep reinforcement learning. Acta Automatica Sinica, 2023, 49(5): 10891098 doi: 10.16383/j.aas.c200045

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200045


关键词

 

视觉注意机制,循环神经网络,深度强化学习,目标定位 

 

摘要

 

为了模拟人眼的视觉注意机制, 快速、高效地搜索和定位图像目标, 提出了一种基于循环神经网络(Recurrent neural network, RNN)的联合回归深度强化学习目标定位模型. 该模型将历史观测信息与当前时刻的观测信息融合, 并做出综合分析, 以训练智能体快速定位目标, 并联合回归器对智能体所定位的目标包围框进行精细调整. 实验结果表明, 该模型能够在少数时间步内快速、准确地定位目标.

 

文章导读

 

人眼视觉在观察客观事物时, 不是关注所有信息, 而是会选择性地关注所感兴趣的那一部分, 同时忽略其他可见的信息, 然后再将注意力转移到下一个位置进行观察, 最后汇总所有信息得到结论. 这种注意力机制[1]涉及两方面问题: 1)历史信息的获取和应用; 2)将历史信息和当前信息融合, 使用融合信息确定新的关注位置.

 

对于历史信息的获取与应用, 循环神经网络[2](Recurrent neural network, RNN)在这方面具有优势, 它的输入不仅包含当前的观察, 还包含之前感知到的历史”, 使得当前信息和历史信息相互融合, 这种融合体现了对输入信息更全面的描述. 对于新的关注位置的决策, 深度强化学习[3-4]中的深度Q网络(Deep Q network, DQN)[5-6]能够模拟人脑对环境状态的感知能力, 并对较为复杂的决策做出判断, 这就为位置决策问题提供了解决思路.

 

鉴于此, 本文将深度强化学习与RNN相结合, 提出了一种基于RNN的联合回归深度强化Q网络(Union regression-deep reinforcement Q network, UR-DRQN)检测模型. 将历史经验运用到新场景的观察中来, 即用RNN获取的历史信息与最新的观测信息融合, 使模型能在较短时间内找到符合要求的包围框, 以缩短检测时间. 同时设计了一个回归器, 对最终的定位包围框进行精调, 以期进一步提高定位精度. 实验结果表明, 该模型能够较好地平衡定位的速度和精度. 其特点如下:

1)融合历史信息的粗定位. 使用RNN将当前时刻新的观测信息和过往的历史信息相融合, 避免传统穷举搜索候选区域来确定目标位置的做法, 并对融合信息进行分析做出动作决策, 实现对图像潜在目标区域的粗定位, 提升了网络的检测效率.

2)粗定位后的细调整. 设计了一个回归网络对由粗定位获得的包围框进行精细调整, 进一步提升网络的检测精度.

3)使用IoU (Intersection over union)[7]作为动作执行的奖励评判标准. IoU使预测区域与标签区域进行直接比对, 提升了强化学习方法在进行目标搜索时动作选择的准确度.

4)动态调整搜索动作. 在动作网络中, 不同于一般强化学习所采用的预定义搜索动作的方式, 以及目标包围框尺度固定的方式, 而是让搜索动作与包围框尺度都能够随环境状态的改变而改变.

 1  状态信息的融合过程

 2  动作示意图

 3  模型整体结构图

 

为模拟人眼的视觉注意与搜索机制, 本文提出了一种基于RNN的联合回归深度强化学习目标定位模型UR-DRQN, 该方法通过RNN提取历史信息作为历史经验, 并指导智能体在新的观测区域进行搜索; 然后通过回归方法, 对所搜索到的区域再进行精细调整. 实验结果表明, UR-DRQN模型可以快速地在若干步内对目标进行定位, 并且较好地平衡了定位的速度和精度. 该模型可以作为一个视觉注意与搜索模式, 应用于多数图像视觉搜索场景中.

 

UR-DRQN模型在定位速度上仍有一定提升空间, 受初始包围框大小和固定的动作调整幅度的影响, 定位速度还有望进一步提升, 并且当前主要面向单目标搜索与定位. 在未来的研究中, 定位速度的提升和复杂场景下的多目标搜索与定位是该方法的主要研究方向.

 

作者简介

 

姚红革

西安工业大学计算机科学与工程学院副教授. 主要研究方向为机器学习, 计算机视觉. E-mail: yaohongge@xatu.edu.cn

 

张玮

西安工业大学计算机科学与工程学院硕士研究生. 主要研究方向为机器学习, 计算机视觉. E-mail: weivanity@gmail.com

 

杨浩琪

西安工业大学计算机科学与工程学院硕士研究生. 主要研究方向为目标检测, 胶囊网络和模型量化. E-mail: curioyhq@gmail.com

 

喻钧

西安工业大学计算机科学与工程学院教授. 主要研究方向为图像处理, 模式识别. 本文通信作者.E-mail: yujun@xatu.edu.cn



https://wap.sciencenet.cn/blog-3291369-1391951.html

上一篇:面向卷积混叠环境下的盲源分离新方法
下一篇:基于变阻抗控制的冗余驱动并联机器人多目标内力优化
收藏 IP: 117.114.9.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-20 03:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部