liuxuanyu的个人博客分享 http://blog.sciencenet.cn/u/liuxuanyu

博文

周报

已有 410 次阅读 2025-5-4 21:44 |个人分类:周报|系统分类:科研笔记

学习周报

姓名

刘轩宇

时间范围

2025.4.27—2025.05.04

周次

研究方向

大模型安全-文本对抗

本周完成工作

1.最近两周在完成毕业论文,现在已经写完毕业论文的第一章文献综述,第二章相关工作,第三章算法设计,正在写第四章实验部分。

2.实验已经完成在mr和ag数据集上的实验,实验结果一般,还需要继续优化。

3.完成其他对比的baseline实验

3.仔细阅读如下论文等:

1.Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?": Explaining the Predictions of Any Classifier. 

2. Kurakin, A., Goodfellow, I., & Bengio, S. (2016). Adversarial Examples in the Physical World. 

3.Morris, J., Lifland, E., Yoo, J. Y., Grigsby, J., Jin, D., & Qi, Y. (2020). TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP. In Proceedings of the 2020 

本周

问题汇报

1.设计攻击方法在一百次查询左右效果由于其他方法,但是由于扰动率太高,还需要在成功判断地方加限制,加限制之后攻击成功率下降,略微优于其他黑盒决策攻击方法。

2.需要在语义相似度,攻击成功率和扰动率做一个权衡。

下周工作计划

1.继续做毕设的实验和书写毕业论文



https://wap.sciencenet.cn/blog-3622894-1484494.html

上一篇:周报
收藏 IP: 210.30.104.*| 热度|

1 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-5-6 11:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部