||
学习周报
姓名 | 刘轩宇 | 时间范围 | 2025.4.27—2025.05.04 | |
周次 | 研究方向 | 大模型安全-文本对抗 | ||
本周完成工作 | 1.最近两周在完成毕业论文,现在已经写完毕业论文的第一章文献综述,第二章相关工作,第三章算法设计,正在写第四章实验部分。 2.实验已经完成在mr和ag数据集上的实验,实验结果一般,还需要继续优化。 3.完成其他对比的baseline实验 3.仔细阅读如下论文等: 1.Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?": Explaining the Predictions of Any Classifier. 2. Kurakin, A., Goodfellow, I., & Bengio, S. (2016). Adversarial Examples in the Physical World. 3.Morris, J., Lifland, E., Yoo, J. Y., Grigsby, J., Jin, D., & Qi, Y. (2020). TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP. In Proceedings of the 2020 | |||
本周 问题汇报 | 1.设计攻击方法在一百次查询左右效果由于其他方法,但是由于扰动率太高,还需要在成功判断地方加限制,加限制之后攻击成功率下降,略微优于其他黑盒决策攻击方法。 2.需要在语义相似度,攻击成功率和扰动率做一个权衡。 | |||
下周工作计划 | 1.继续做毕设的实验和书写毕业论文 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-5-6 11:46
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社