刘轩宇
周报
2025-5-4 21:44
阅读:414

学习周报

姓名

刘轩宇

时间范围

2025.4.27—2025.05.04

周次

研究方向

大模型安全-文本对抗

本周完成工作

1.最近两周在完成毕业论文,现在已经写完毕业论文的第一章文献综述,第二章相关工作,第三章算法设计,正在写第四章实验部分。

2.实验已经完成在mr和ag数据集上的实验,实验结果一般,还需要继续优化。

3.完成其他对比的baseline实验

3.仔细阅读如下论文等:

1.Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?": Explaining the Predictions of Any Classifier. 

2. Kurakin, A., Goodfellow, I., & Bengio, S. (2016). Adversarial Examples in the Physical World. 

3.Morris, J., Lifland, E., Yoo, J. Y., Grigsby, J., Jin, D., & Qi, Y. (2020). TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP. In Proceedings of the 2020 

本周

问题汇报

1.设计攻击方法在一百次查询左右效果由于其他方法,但是由于扰动率太高,还需要在成功判断地方加限制,加限制之后攻击成功率下降,略微优于其他黑盒决策攻击方法。

2.需要在语义相似度,攻击成功率和扰动率做一个权衡。

下周工作计划

1.继续做毕设的实验和书写毕业论文

转载本文请联系原作者获取授权,同时请注明本文来自刘轩宇科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3622894-1484494.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?