||
最近,Meta AI研究团队提出了一种通用的、基于提示的"segment anything"模型(SAM),该模型在一个前所未有的大型分割数据集(SA-1B)上进行了预训练。毫无疑问,SAM的出现将为各种实际图像分割应用带来巨大的好处。来自加拿大阿尔伯塔大学的研究者们对SAM在各种应用领域,特别是自然图像、农业、制造业、遥感和医疗保健领域的性能进行了一系列有趣的调查。文章分析和讨论了SAM的优点和局限性,同时展望了其在分割任务中未来的发展,以期让人们全面了解SAM在实际应用中的效果。文章有望为未来通用分割研究工作提供启示。
源代码公开获取地址:
https://github.com/LiuTingWed/SAM-Not-Perfect
图片来自Springer
全文下载:
Segment Anything Is Not Always Perfect: An Investigation of SAM on Different Real-world Applications
Wei Ji, Jingjing Li, Qi Bi, Tingwei Liu, Wenbo Li & Li Cheng
https://link.springer.com/article/10.1007/s11633-023-1385-0
https://www.mi-research.net/en/article/doi/10.1007/s11633-023-1385-0
全文导读
近年来,基础模型引起了人们的广泛关注,这主要归功于基础模型在规模庞大的网络数据集上进行了充分的预训练,并且在各种下游任务中具有优秀的泛化能力。不久之后,基于GPT基础模型的ChatGPT因其实时、合理的语言生成和用户交互而取得了巨大的商业成功。而论及视觉领域,基础模型的探索仍处于初级阶段。对比语言-图像预训练(CLIP)是一项开创性工作,该模型有效结合了图像和文本模态,实现了新视觉概念的零样本泛化。然而,与自然语言处理(NLP)不同的是,由于缺乏丰富的训练数据,该模型对视觉任务的泛化能力仍然不尽如人意。
最近,Meta AI Research发布了一个基于提示的"segment anything"模型(SAM)。SAM通过将单个用户交互作为提示,能够分割任何图像或视频中的任何对象,而无需额外的训练,这在视觉领域通常被称为零样本迁移。正如作者所言,SAM的功能由一个视觉基础模型驱动,该模型已在包含1100多万张图像和10亿个掩码SA-1B庞大数据集上进行了训练。同时,作者还发布了一个令人印象深刻的在线演示,展示了SAM的功能,网址为https://segment-anything.com。SAM旨在为任何提示生成有效的分割结果,提示可以包括前景/背景点、大致的方框或掩码、自由文本,或任何其他指示图像中应分割内容的信息。最新项目提供了三种提示模式:点击模式、框选模式和全自动模式。点击模式允许用户通过一次或多次单击来分割对象,既可将其包含在对象中,也可将其排除在外。框选模式允许用户通过大致绘制一个边界框并使用其他点击提示来分割对象。而全自动模式会自动识别并对图像中的所有对象进行掩码处理。
毋庸置疑,SAM的出现展示了对各种图像和对象的强大泛化能力,为智能图像分析和理解(如增强现实和人机交互)的应用开辟了新的可能性和途径。业界和学术界的一些从业人员甚至断言,称"分割技术已经走到了尽头"、"计算机视觉界正在经历一场巨大的变革"。实际上,一个用于预训练的专用数据集很难涵盖现实中大量不同寻常的场景和成像模式,尤其是对于计算机视觉领域而言,其涉及各种条件(如弱光、鸟瞰视角、雾、雨),或采用各种输入模式(如深度、红外、事件、点云、CT、MRI),并且有众多的实际应用。因此,研究SAM在不同场景和应用下的推理或泛化能力具有重要的现实意义。
因此,本文开展了这项研究,考察SAM在各种实际分割应用中的性能,如图1所示。具体来说,本文将SAM应用于自然图像、农业、制造业、遥感和医疗保健等各种实际场景。同时,本文还讨论了SAM在实践中的优势和局限性。基于这些研究,本文提出了以下看法:
图1 在各种现实应用中的segment anything模型(SAM)结果,本文采用全自动模式获取 SAM分割结果(右图)。作为参考,分割真值重叠在原图像。放大后可获得最佳视图。
1)SAM在常见场景中具有出色的泛化能力。在各种图像上进行的实验验证了SAM在不同提示模式下的有效性,表明其在典型自然图像场景中具有良好的泛化能力,特别是当目标区域与周围环境有明显区别时。这凸显了基于提示的SAM模型设计的优越性及其庞大且多样化的训练数据源的优势。
2)使用SAM需要较强的先验知识。在使用SAM的过程中,本文发现对于复杂的场景,例如庄稼分割和眼底图像分割,用户需要更多具有先验知识的手动提示,这可能会导致用户体验不佳。此外,本文注意到SAM倾向于选择前景掩码。将SAM模型应用于阴影检测任务时,即使有大量的点击提示,其性能仍然较差。这可能是由于其预训练数据集中存在较强的前景偏差,妨碍了其有效处理某些场景的能力。
3)SAM在低对比度应用中效果较差。对周围元素相似的物体进行分割具有挑战性,尤其是在处理"无缝"嵌入周围环境的透明或伪装物体时。实验表明,在具有低对比度元素的复杂场景中,SAM的鲁棒性还有很大的探索和提升空间。
4)SAM对专业数据的理解有限。本文将SAM应用于实际的医疗和工业场景,发现SAM对专业数据的处理结果并不令人满意,尤其是在使用框选模式和全自动模式时。这表明SAM在理解这些实际场景方面的局限性。此外,即使使用点击模式,用户和模型也需要具备一定的领域专业知识和对当前任务的理解。
5)较小和不规则的对象会给SAM带来挑战。遥感和农业领域给SAM带来了额外的挑战,例如从航空成像传感器中捕捉到的不规则建筑物和小型街道。这些对象的复杂性使得SAM难以完成完整的分割。如何在这种情况下为SAM设计有效的策略仍是一个待解决的问题。
本研究考察了 SAM 在各种场景中的表现,并提出了一些看法和见解,以促进视觉领域基础模型的发展。虽然本文已经测试了许多任务,但并未涵盖所有下游应用。希望未来的研究会探索更多精彩的分割任务和场景。
SAM在显著物体分割中的应用
SAM在伪装物体分割中的应用
SAM在透明物体分割中的应用
SAM在阴影检测中的应用
SAM在作物分割中的应用
SAM在病虫害及树叶疾病监测中的应用
SAM在异常检测中的应用
SAM在表面缺陷中的应用
SAM在建筑物提取中的应用
SAM在道路提取中的应用
SAM在联合光学成像及光杯分割中的应用
SAM在息肉分割中的应用
SAM在皮肤病变分割中的应用
全文下载:
Segment Anything Is Not Always Perfect: An Investigation of SAM on Different Real-world Applications
Wei Ji, Jingjing Li, Qi Bi, Tingwei Liu, Wenbo Li & Li Cheng
https://link.springer.com/article/10.1007/s11633-023-1385-0
https://www.mi-research.net/en/article/doi/10.1007/s11633-023-1385-0
BibTex:
@Article{MIR-2023-11-249,
title={Segment Anything Is Not Always Perfect: An Investigation of SAM on Different Real-world Applications},
journal={Machine Intelligence Research},
volume={21},
number={4},
pages={1-14},
year={2024},
issn={2731-538X},
doi={10.1007/s11633-023-1385-0},
url={https://www.mi-research.net/en/article/doi/10.1007/s11633-023-1385-0},
author={Wei Ji and Jingjing Li and Qi Bi and Tingwei Liu and Wenbo Li and Li Cheng}}
关于Machine Intelligence ResearchMachine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%,2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4,位列人工智能及自动化&控制系统两个领域JCR Q1区。Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-15 23:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社