Chenfiona的个人博客分享 http://blog.sciencenet.cn/u/Chenfiona

博文

前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究

已有 641 次阅读 2023-9-22 10:58 |个人分类:好文推荐|系统分类:论文交流

title.jpg

作为OpenAI公司ChatGPT模型的竞品,谷歌公司提出的BARD模型已经在会话型人工智能领域取得了显著进展。特别值得注意的是,BARD模型的最新版本在对话过程中具备了处理文本提示和视觉输入的能力。鉴于BARD模型在文本输入处理方面取得的令人嘱目的成就,来自苏黎世联邦理工学院(ETHZ)、澳大利亚国立大学(ANU)和穆罕默德·本·扎伊德人工智能大学(MBZUAI)的研究者们聚焦于探索其在理解并解析由文本问题引导的视觉数据(图像)方面的潜力。这一探索有望揭示BARD模型以及其他即将涌现的多模态生成式模型背后的新见解与挑战,特别是在解决那些需要准确的视觉和语言理解能力的复杂问题时。具体而言,本研究针对15种不同的任务场景展开研究,涵盖了通用、伪装、医疗、水下和遥感数据等领域,用于全面评估BARD模型的表现。实验结果表明,在这些视觉场景中,BARD模型仍然面临一定的困难,表明其在视觉理解能力方面具有提升空间。这项实证研究有助于推动未来相关模型的发展,增强模型在理解和解析细粒度视觉数据方面的能力。

封面.jpg

全文下载:

How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges

Haotong Qin, Ge-Peng Ji, Salman Khan, Deng-Ping Fan, Fahad Shahbaz Khan & Luc Van Gool 

https://www.mi-research.net/article/doi/10.1007/s11633-023-1469-x

https://link.springer.com/article/10.1007/s11633-023-1469-x

全文导读

BARD(谷歌AI聊天机器人)是一款基于LaMDA模型和后续的PaLM模型的生成式人工智能系统。于2023年3月初步推出,并于5月在全球范围内推广开来。该系统能够接受文本提示,并根据这些提示执行多种基于文本的任务,如提供答案、摘要和创作各类文本内容。截至2023年7月13日,谷歌的BARD宣布了一项重大更新,该更新允许用户以图像作为输入,并结合文本提示使用。据报道,BARD能够分析视觉内容,提供相应的描述(如图像标题), 或者运用视觉信息回答问题。值得关注的是,尽管其他模型如GPT-4声称能够接受并理解图像输入作为提示,但这些模型并未公开使用。因此,BARD模型为计算机视觉领域提供了首个机会,去评估它的可靠性和鲁棒性,以理解现有的优势和局限性。

11.jpg

图片来自网络

本研究工作的目标是基于计算机视觉领域中长期存在的一些问题,分析BARD模型在应对这类问题上所具备的能力。

本研究针对计算机视觉问题,确定了一系列具有趣味性的任务场景用于BARD模型的定性评价。考虑到当前BARD模型尚未提供开放的API访问权限,因此无法进行大规模基准的定量测试。这些任务场景和提示不仅适用于评估BARD模型的视觉理解能力,也可以为未来的大规模多模态模型(例如GPT-4)的评估提供一定的参考依据。本研究特别选用BARD模型的原因是,其在所有开/闭源多模态对话模型中表现突出,包括于2023年7月18日推出的Bing-Chat模型。相关数据请参考LLaVA-Bench。

图1.jpg

图1 使用谷歌的BARD进行多模态交互会话的若干示例,其中AI系统根据从Microsoft COCO数据集中获取的图像回答用户的问题

  实证实验

为了评估BARD在给定文本提示的条件下的视觉感知和语境理解等能力,研究者们设计了一系列视觉-语言任务场景。随后深入研究了从这些实证研究中提取出的若干例子,涵盖了总共15个视觉问答(VQA)场景,涉及对象检测和定位、分析对象属性、计数、可供性以及自然图像中的细粒度识别等任务。研究者们还在一些具有挑战性的情况下进行了实验,例如识别伪装对象,以及医疗、水下和遥感图像等多样的领域。以下是本研究具体涉及的场景。对应场景的详细解释请见原文:

How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges 

场景#1–对象属性

场景#2–对象存在

场景#3–对象位置

场景#4–关系推理

场景#5–适用性

场景#6–对抗样本

场景#7–雨天条件

场景#8–情感理解

场景#9–细粒度识别

场景#10–识别伪装对象

场景#11–对象计数

场景#12–发现工业缺陷

场景#13–识别光学字符

场景#14–分析医疗数据

场景#15–解释遥感数据

全文下载:

How Good is Google Bard’s Visual Understanding? An Empirical Study on Open Challenges

Haotong Qin, Ge-Peng Ji, Salman Khan, Deng-Ping Fan, Fahad Shahbaz Khan & Luc Van Gool 

https://www.mi-research.net/article/doi/10.1007/s11633-023-1469-x

https://link.springer.com/article/10.1007/s11633-023-1469-x

BibTex:

@Article{MIR-2023-08-155,    

author = {Haotong Qin and Ge-Peng Ji and Salman Khan and Deng-Ping Fan and Fahad Shahbaz Khan and Luc Van Gool},  

journal = {Machine Intelligence Research},    

title = {How Good is Google Bard′s Visual Understanding? An Empirical Study on Open Challenges},    

year = {2023},    

pages = {605-613},    

doi = {10.1007/s11633-023-1469-x}}    


作者.png

  纸刊免费寄送

  Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!

说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737

收件信息登记:

https://www.wjx.cn‍/vm/eIyIAAI.aspx#  


关于Machine Intelligence Research

Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。



好文推荐

乔红院士团队 | 类脑智能机器人:理论分析与系统应用 (机器智能研究MIR)
西电公茂果团队 | 综述: 多模态数据的联邦学习
高文院士团队 | 综述: 大规模多模态预训练模型
港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法
南航张道强教授团队 | 综述:用于脑影像基因组学的机器学习方法
ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法 (机器智能研究MIR)
Luc Van Gool团队 | 深度学习视角下的视频息肉分割
专题综述 | 高效的视觉识别: 最新进展及类脑方法综述
北大黄铁军团队 | 专题综述:视觉信息的神经解码
专题综述 | 迈向脑启发计算机视觉的新范式
专题好文 | 新型类脑去噪内源生成模型: 解决复杂噪音下的手写数字识别问题
戴琼海院士团队 | 用以图像去遮挡的基于事件增强的多模态融合混合网络
ETH Zurich重磅综述 | 人脸-素描合成:一个新的挑战
华南理工詹志辉团队 | 综述: 面向昂贵优化的进化计算
东南大学张敏灵团队 | 基于选择性特征增广的多维分类方法
联想CTO芮勇团队 | 知识挖掘:跨领域的综述
复旦邱锡鹏团队 | 综述:自然语言处理中的范式转换


MIR资讯
2022影响因子发布!人工智能领域最新SCI & ESCI期刊一览
主编谭铁牛院士主持,MIR第二次国内编委会议圆满召开
喜报 | MIR入选图像图形领域 T2级 “知名期刊”!
2023年人工智能领域国际学术会议参考列表 | 机器智能研究MIR
恭喜!MIR 2022年度优秀编委
双喜!MIR入选”2022中国科技核心期刊”,并被DBLP收录 | 机器智能研究MIR
报喜!MIR入选2022年国际影响力TOP期刊榜单
喜报 | MIR被 ESCI 收录!
喜报 | MIR 被 EI 与 Scopus 数据库收录

微信公众号最下方图片.gif




https://wap.sciencenet.cn/blog-749317-1403417.html

上一篇:机器智能前沿论坛·第4期 | 多模态数据感知与学习
下一篇:AI最前沿 | 大规模多模态预训练模型、机器翻译、联邦学习...... (机器智能研究MIR)
收藏 IP: 39.144.159.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 18:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部