MDPI开放科学
Drones 西北工业大学:一种高效的无人机影像开放词汇目标检测方法——UAV-OVD
2025-9-12 18:31
阅读:546

文章导读

无人机影像中的目标检测因其在监测、灾害响应及环境保护等领域的广泛应用而备受关注。然而,现有方法大多基于封闭类别集假设,尽管已有部分研究开始探索开放词汇或开放世界检测,但其在无人机影像中的应用仍然有限。为解决这一问题,来自西北工业大学网络空间安全学院张号逵博士及其团队在 Drones 期刊发表了文章,提出了一种新型高效的检测模型——UAV-OVD,该工作对于无人机场景下的开放目标检测研究具有重要意义。

          

研究过程与结果

作者基于RT-DETR构建UAV-OVD,从三个互补角度进行了改进:首先,在训练层面,设计了区域–文本对比损失替代传统分类损失,使模型能够在超越固定类别集的条件下对齐视觉区域与文本语义;其次,在结构设计上,引入了多层次文本引导的融合解码器,在语言约束下整合多尺度视觉特征,从而提升整体检测性能并增强对小目标的表征与感知;最后,在数据层面,通过同义词扩展类别标签,丰富了监督信息,使检测更加灵活且语义表达更为充分。

           

3.png

UAV-OVD架构概览。该模型融合了三个核心组件:(1) 区域–文本对比损失函数,用于对齐视觉与语义特征并实现开放词汇检测;(2) 多层次文本引导融合解码器 (MTFD),旨在提升复杂航拍影像中小目标和密集目标的检测能力;(3) 类别扩展机制,在训练过程中引入同义词以增强语言泛化能力。

           

在两个主流基准数据集上的实验表明,UAV-OVD在mAP和Recall上均实现了显著提升。例如,在xView的零样本检测任务中,UAV-OVD分别取得9.9 mAP和67.3 Recall,较YOLO-World提升1.1 mAP和25.6 Recall;在速度上,UAV-OVD达到53.8 FPS,几乎是YOLO-World的两倍、DetrReg的五倍;除此之外,UAV-OVD在小目标检测的效果优于现有sota模型,充分展示了其在无人机影像开放词汇检测中实现实时应用的潜力。

            

2.png

UAV-OVD与YOLO-World-L的性能与特征图对比。(1) 篮球场类别 (新类别) 的检测结果;(2) (3) 车辆类别 (基类) 的检测结果。

1.png

DescReg、YOLO-World-L与UAV-OVD的推理速度 (FPS) 对比。

         

研究总结

本文提出了高效的无人机开放词汇检测器UAV-OVD,通过区域–文本对比损失、多层次文本引导融合解码器及同义词扩展策略,显著提升了小目标和新类别的检测性能,并在xView和DIOR上优于现有方法,验证了其实用性与鲁棒性。尽管如此,未来研究仍有诸多方向值得探索,例如使UAV-OVD更好地适应灾害响应、基础设施巡检和农业监测等多样化任务场景,将检测模块与机载导航和规划系统结合以实现感知—决策闭环,在动态环境中支持基于用户提示或上下文信息的实时词汇扩展,以及融合热成像、LiDAR和任务报告等多模态信息,以进一步提升在复杂或低能见度条件下的识别性能。这些拓展将有助于推动开放词汇检测从研究走向无人机自主系统的实际应用。

          

原文出自 Drones 期刊:https://www.mdpi.com/3403008

期刊主页:https://www.mdpi.com/journal/drones

       

Drones 期刊介绍

主编:Diego González-Aguilera, University of Salamanca, Spain; Pablo Rodríguez-Gonzálvez, University of León, Spain

期刊主要涵盖无人机、无人机系统、远程驾驶航空器系统、水下无人机以及无人地面载具等相关的最新科学技术及应用。目前期刊已被 Scopus、SCIE (Web of Science)、Ei Compendex等权威数据库收录。

2024 Impact Factor:4.8

2024 CiteScore:7.4

Time to First Decision:20.1 Days

Acceptance to Publication:2.4 Days

尾图1.jpg

尾图2.jpg

转载本文请联系原作者获取授权,同时请注明本文来自MDPI开放科学科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3516770-1501659.html?mobile=1

收藏

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?