|
学习周报
姓名 | 李佳澄 | 时间范围 | 20250324-20250330 | |
周次 | 第六十四周 | 研究方向 | 多模态对抗攻击与防御 | |
本周完成工作 | 1. 阅读论文《Transferable Multimodal Attack on Vision-Language Pre-training Models》 2. 阅读论文《Visual Adversarial Examples Jailbreak Aligned Large Language Models》 3. 阅读论文《Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models》 | |||
本周 问题汇报 | 1. 论文1提出了一种可转移的多模态攻击框架(TMM),用于生成针对视觉语言预训练(VLP)模型的可转移对抗性示例。该框架通过利用模态一致性特征和模态差异特征,增强了对抗性示例的可转移性和攻击能力。 TMM框架首次同时考虑了模态一致性特征和模态差异特征在对抗性攻击中的作用。模态一致性特征是指不同模态(如视觉和文本)之间共享的特征,而模态差异特征是指特定于某一模态的独特特征。通过同时利用这两种特征,TMM能够更有效地生成对抗性示例。 为了提高对抗性示例的可转移性,TMM引入了注意力引导的特征扰动策略。该策略通过在视觉和文本模态的关键区域添加扰动,增强对抗性攻击在不同模型之间的可转移性。 为了进一步提高攻击的成功率,TMM提出了正交引导的特征异构化策略。该策略通过正交化嵌入特征,引导对抗性扰动包含更多的模态差异特征,从而增强攻击效果。 2. 论文2研究了将视觉对抗性示例应用于突破对齐的大语言模型(LLMs)的安全性和安全性问题。随着视觉与语言模态融合趋势的加强,如Flamingo和GPT4等视觉语言模型(VLMs)的出现,本文揭示了这种融合所带来的新的安全风险。文章指出,视觉输入的连续性和高维特性使其成为对抗性攻击的薄弱环节,同时LLMs的多功能性也扩展了视觉攻击者可实现的对抗性目标范围,从而加剧了安全故障的潜在影响。 本文强调了多模态融合趋势下攻击面的扩大和安全故障影响的扩展。视觉输入的特性使其成为对抗性攻击的新目标,而LLMs的多功能性则使得攻击者能够实现更广泛的对抗性目标,如突破模型的安全防护机制。 本文展示了如何利用视觉对抗性示例来突破对齐的LLMs的安全防护,迫使模型遵循有害指令并生成有害内容。单个视觉对抗性示例可以普遍地突破对齐的LLMs,使其遵循各种有害指令。这种通用性意味着攻击者可以通过优化一个对抗性示例来影响模型在多种有害场景下的行为。 3. 论文3提出了一种针对视觉-语言预训练(VLP)模型的样本无关对抗性扰动方法,旨在通过探索多模态决策边界来创建一种通用的、与样本无关的对抗性扰动,这种扰动可以应用于任何图像,从而揭示VLP模型在多模态环境下的脆弱性。 首次将决策边界理论应用于多模态场景,为探索图像和视觉嵌入在高维空间中的鲁棒性提供了理论基础。 设计了一种新的算法来生成通用对抗性扰动,这是一种在图像输入空间中可利用的恶意方向,可以破坏VLP模型的检索性能。 将图像和文本模态视为互为样本点和决策超平面,通过迭代过程不断优化通用扰动,最终确定输入空间中可利用的单一方向,以削弱VLP模型的检索性能。 | |||
下周工作计划 | 1. 继续阅读并复现多模态对抗攻击与防御的相关文章 2. 继续了解深伪检测研究方向 |
学习内容笔记
Transferable Multimodal Attack on Vision-Language Pre-training Models
Visual Adversarial Examples Jailbreak Aligned Large Language Models
Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-5-2 11:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社