科研方面:
看论文
一、“Assessing The Factual Accuracy of Generated Text”
本文贡献:
1.引入事实级评估指标factacc,解决传统评估指标(如 ROUGE、BLEU)无法检测事实性错误的问题。
2.提出两种事实抽取方法,包括Named Entity Recognition (NER) + Relation Classifier的两阶段法和E2E的端到端法。
3.最后总结:端到端结构化抽取 + factacc 是比传统指标更可靠的评估手段。
二、“CHAIN-OF-VERIFICATION REDUCES HALLUCINATION IN LARGE LANGUAGE MODELS”
本文贡献:
创造了一种检测幻觉的方法CoVe(CHAIN-OF-VERIFICATION),是一种让模型“自己验证自己”的方法,可以成功的减少大模型的幻觉。
CoVe的方法步骤如下:
1. Generate Baseline Response
2. Plan Verifications
3. Execute Verifications
4. Generate Final Verified Response
其中第三步可以分为joint、2-step、Factored和Factor+Revise四种,实验结果表明Factor+Revise效果最好。
我的疑问:CoT似乎并不能减轻幻觉。那么短思考和长思考的幻觉差异是否只是因为思考的次数不同?是否是长思考的思考次数增加导致幻觉的累积,以至于长思考的幻觉问题相比短思考更加严重?
项目方面:
在生成工作流功能上做出改进,编写自然语言生成工作流的prompt并编写测试文件进行测试。目前来说效果有点一般。
下周工作:
科研上继续研读论文,加深对大模型幻觉的了解,继续思考长短思考对于幻觉的影响。
项目上改进生成工作流的prompt,并选择合适的模型来通过prompt生成工作流。
转载本文请联系原作者获取授权,同时请注明本文来自赵宇翱科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3631097-1487149.html?mobile=1
收藏