科学网-周报-刘轩宇的博文

切换到桌面版

周报

2025-5-4 21:44

阅读：1529

学习周报

姓名		刘轩宇	时间范围	2025.4.27—2025.05.04
周次			研究方向	大模型安全-文本对抗
本周完成工作	1.最近两周在完成毕业论文，现在已经写完毕业论文的第一章文献综述，第二章相关工作，第三章算法设计，正在写第四章实验部分。 2.实验已经完成在mr和ag数据集上的实验，实验结果一般，还需要继续优化。 3.完成其他对比的baseline实验 3.仔细阅读如下论文等： 1.Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?": Explaining the Predictions of Any Classifier. 2. Kurakin, A., Goodfellow, I., & Bengio, S. (2016). Adversarial Examples in the Physical World. 3.Morris, J., Lifland, E., Yoo, J. Y., Grigsby, J., Jin, D., & Qi, Y. (2020). TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP. In Proceedings of the 2020
本周问题汇报	1.设计攻击方法在一百次查询左右效果由于其他方法，但是由于扰动率太高，还需要在成功判断地方加限制，加限制之后攻击成功率下降，略微优于其他黑盒决策攻击方法。 2.需要在语义相似度，攻击成功率和扰动率做一个权衡。
下周工作计划	1.继续做毕设的实验和书写毕业论文

转载本文请联系原作者获取授权，同时请注明本文来自刘轩宇科学网博客。

链接地址：https://wap.sciencenet.cn/blog-3622894-1484494.html?mobile=1

收藏

当前推荐数：1

推荐人：

推荐到博客首页

网友评论0 条评论

该博文允许注册用户评论请点击登录

确定删除指定的回复吗？

确定删除本博文吗？