科学网-直播预告 | 基于文本提示与可控扩散模型引导的真实伪装图像生成-陈培颖的博文

直播预告 | 基于文本提示与可控扩散模型引导的真实伪装图像生成

2026-4-14 09:45

阅读：739

新新标签.jpg

智能科学创新讲堂·AI新锐系列由国际人工智能期刊Machine Intelligence Research (MIR)主办，分若干专题，聚焦机器智能领域的最新进展与前沿探索，面向全球青年学者，定期邀请他们分享在人工智能顶级会议或权威期刊上发表的代表性成果。讲堂旨在搭建一个展示青年科研力量、促进跨机构与跨学科交流的平台，激发智能科学领域的创新思维与学术合作，推动青年人才成长与前沿研究传播。

智能科学创新讲堂·总第二十四讲

“隐性视觉感知”专题

智能科学创新讲堂本期聚焦"隐性视觉感知"专题。"隐性视觉感知"专题专注于伪装目标检测、透明物体分割、阴影检测等隐性视觉感知前沿研究，并积极探索其在医疗影像(如息肉检测)等领域的应用拓展。旨在让这个重要而富有挑战性的研究主题更加活跃，通过开放的学术交流不断迸发新的思想火花，推动学术社区繁荣和领域持续进步，促进计算机视觉与医疗影像等交叉领域的深入交流与合作，逐步打通不同应用场景的技术壁垒。

南京航空航天大学李文通副教授将开启本专题本年度第一场分享会，牛津大学田昕博士担纲主持。2026年4月16日(周四) 15:00，四大平台同步直播，诚邀您预约收看！

往期分享回放：

https://space.bilibili.com/583634554/lists/697159?type=series

主持人.jpg

报告摘要

本报告分享一种名为CT-CIG 的文本引导可控扩散生成方法，来解决现有伪装图像生成方法中存在的忽视伪装物体与背景环境逻辑关系、导致生成结果缺乏自然真实感的问题。方法通过视觉语言模型构建高质量图文数据，设计“伪装揭示对话机制”生成文本提示，并结合二值掩码实现准确几何控制。同时引入频率交互细化模块增强纹理细节、减少伪影。实验在LAKE-RED 和 COD10K 上表明，该方法在 FID、KID 和 CLIP Score 等指标上优于多种先进方法。

观看渠道

直播通道①：

哔哩哔哩APP搜索"中国科学院自动化所”或扫描下方二维码，直播当天点击头像即可进入

b站.png