YuaoZhao的个人博客分享 http://blog.sciencenet.cn/u/YuaoZhao

博文

5.19-5.25周报

已有 442 次阅读 2025-5-25 21:48 |系统分类:科研笔记

科研方面:

看论文

一、“Assessing The Factual Accuracy of Generated Text

本文贡献:

  1.引入事实级评估指标factacc,解决传统评估指标(如 ROUGE、BLEU)无法检测事实性错误的问题。

image.png

  2.提出两种事实抽取方法,包括Named Entity Recognition (NER) + Relation Classifier的两阶段法和E2E的端到端法。

  3.最后总结:端到端结构化抽取 + factacc 是比传统指标更可靠的评估手段。

二、“CHAIN-OF-VERIFICATION REDUCES HALLUCINATION  IN LARGE LANGUAGE MODELS

本文贡献:

  创造了一种检测幻觉的方法CoVe(CHAIN-OF-VERIFICATION),是一种让模型“自己验证自己”的方法,可以成功的减少大模型的幻觉。

  CoVe的方法步骤如下:

        1. Generate Baseline Response 

        2. Plan Verifications

        3. Execute Verifications

        4. Generate Final Verified Response

  其中第三步可以分为joint、2-step、Factored和Factor+Revise四种,实验结果表明Factor+Revise效果最好。

  我的疑问:CoT似乎并不能减轻幻觉。那么短思考和长思考的幻觉差异是否只是因为思考的次数不同?是否是长思考的思考次数增加导致幻觉的累积,以至于长思考的幻觉问题相比短思考更加严重?

项目方面:

在生成工作流功能上做出改进,编写自然语言生成工作流的prompt并编写测试文件进行测试。目前来说效果有点一般。

下周工作:

科研上继续研读论文,加深对大模型幻觉的了解,继续思考长短思考对于幻觉的影响。

项目上改进生成工作流的prompt,并选择合适的模型来通过prompt生成工作流。



https://wap.sciencenet.cn/blog-3631097-1487149.html


收藏 IP: 210.30.104.*| 热度|

2 王涛 xtn

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-5-28 03:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部