IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于映射字典学习的跨模态哈希检索

已有 580 次阅读 2023-12-15 16:12 |系统分类:博客资讯

引用本文

 

姚涛, 孔祥维, 付海燕, TIANQi. 基于映射字典学习的跨模态哈希检索. 自动化学报, 2018, 44(8): 1475-1485. doi: 10.16383/j.aas.2017.c160433

YAO Tao, KONG Xiang-Wei, Fu Hai-Yan, TIAN Qi. Projective Dictionary Learning Hashing for Cross-modal Retrieval. ACTA AUTOMATICA SINICA, 2018, 44(8): 1475-1485. doi: 10.16383/j.aas.2017.c160433

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160433

 

关键词

 

跨模态检索,哈希,映射字典学习,汉明空间 

 

摘要

 

针对网络上出现越来越多的多模态数据,如何在海量数据中检索不同模态的数据成为一个新的挑战.哈希方法把数据映射到Hamming空间,大大降低了计算复杂度,为海量数据的跨模态检索提供了一条有效的路径.然而,大部分现存方法生成的哈希码不包含任何语义信息,从而导致算法性能的下降.为了解决这个问题,本文提出一种基于映射字典学习的跨模态哈希检索算法.首先,利用映射字典学习一个共享语义子空间,在子空间保持数据模态间的相似性.然后,提出一种高效的迭代优化算法得到哈希函数,但是可以证明问题的解并不是唯一的.因此,本文提出通过学习一个正交旋转矩阵最小化量化误差,得到性能更好的哈希函数.最后,在两个公开数据集上的实验结果说明了该算法优于其他现存方法.

 

文章导读

 

随着计算机网络和信息技术的快速发展, 网络上的媒体数据量急剧增长, 媒体的表示形式也呈现出多模态性(图像、文本、声音、视频等).例如:在微博上传照片时, 往往会同时上传一段文字描述照片的内容或用一些标签标注图像的内容; 在微信的朋友圈分享时, 往往也是图文并茂; 购物网站, 例如淘宝、京东等, 在描述产品信息时通常既用图片, 又用文字.这些多模态数据虽然表现形式不同, 但它们之间存在语义关联.跨媒体检索的目的就是挖掘不同媒体之间存在的语义关系, 并按语义关系进行排序, 返回跟查询存在较强语义关系的不同模态的数据.随着媒体数据量的急速增长和模态的多样化, 传统的检索方法已经不能满足当前跨媒体检索的需求.如何在海量数据中检索不同模态的数据成为一个巨大的挑战.

 

哈希方法是解决大数据问题的一种有效的方法, 不仅能大大节省存储空间, 而且计算效率也大幅提高.例如一张图片用5 000维的BOW表示, 假设每维用double数据类型表示, 即每维占用8 Bytes的存储空间, 则需要5000×8Bytes=40000Bytes的存储空间.而哈希方法是把数据映射汉明空间, 例如用32 bits (8 bits = 1 Byte)来表示一张图片, 仅需要4 Bytes的存储空间, 大大节省了存储空间, 占用的存储空间仅为原始特征空间的万分之一.在检索过程中, 因为数据用二值码表示, 因此在计算样本间的距离时, 只需要做简单的异或操作即可, 大大提升了计算的效率, 使检索的时间复杂度远低于传统方法.

 

针对以上问题, 本文提出一种基于映射字典学习的跨媒体哈希算法, 主要贡献如下:

1) 利用映射字典学习使哈希码含有语义信息以提升算法的性能.算法同时学习了哈希函数, 这与现存的字典学习哈希算法不同.

2) 提出通过最小化量化误差, 学习一个正交旋转矩阵, 提升算法的性能, 并且可以证明旋转后的解依然是问题的局部最优解.

 

本文结构安排如下:1节介绍哈希算法的相关工作; 2节回顾字典学习的相关内容, 阐述了本文算法的思想, 优化过程及计算复杂度分析; 3节给出在两个公开数据集上的实验结果; 4节对本文的研究内容进行总结.

 1  算法的收敛性分析

 2  码长16 bitsWiki数据集的PR曲线图

 3  码长32 bitsWiki数据集的PR曲线图

 

针对哈希码语义无关而导致性能下降的问题, 本文提出了一种基于映射字典学习的跨模态哈希检索算法.算法利用映射字典学习降低了算法复杂度, 并生成了哈希函数, 这与现存字典学习哈希方法不同.最后在两个公开数据集上的实验结果证明了算法的有效性.将来的工作主要包括学习一个更好的子空间表示, 减小量化误差对哈希函数的影响和利用非线性变换更好地捕捉样本间的内在联系.

 

作者简介

 

姚涛

大连理工大学信息与通信工程学院博士研究生.主要研究方向为多媒体检索, 计算机视觉与模式识别.E-mail:yaotaoedu@mail.dlut.edu.cn

 

付海燕  

大连理工大学信息与通信工程学院副教授.2014年获得大连理工大学博士学位.主要研究方向为图像检索和计算机视觉.E-mail:fuhy@dlut.edu.cn

 

TIAN Qi  

美国德克萨斯大学圣安东尼奥分校计算机科学学院教授.IEEEFellow.2002年获得伊利诺伊大学厄巴纳-香槟分校电子与计算工程博士学位.主要研究方向为多媒体信息检索, 模式识别和计算机视觉.E-mail:qitian@cs.utsa.edu

 

孔祥维  

浙江大学数据科学与管理工程学系教授.2003获得大连理工大学管理科学与工程专业博士学位.2006~2007年美国普渡大学访问学者.主要研究方向为人工智能和商务分析, 大数据分析, 跨媒体检索和安全.本文通信作者.E-mail:kongxiangwei@zju.edu.cn



https://wap.sciencenet.cn/blog-3291369-1413977.html

上一篇:数据驱动结合元启发优化的沥青路面车辙深度短时预测模型
下一篇:基于Morse-Smale拓扑特征的文物碎片拼接算法
收藏 IP: 117.114.9.*| 热度|

2 张学文 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-12 03:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部