随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

中文评测哪里去?在语言大模型横扫一切的年代

已有 1150 次阅读 2024-7-28 13:14 |个人分类:Computational Linguistics|系统分类:观点评述

CCL的评测会议前两天结束了。因地域问题,没能参加线上会议,在花了一天了解了会议内容之后,觉得有必要把感想记下来。从03年开始关注评测,到08年开始参加各种评测,再到组织国内外的评测,这历程就好比从旁观到实战,最后要思考的是价值和方向。

在读书的时候参加评测,一心想的是如何刷分,如何提高成绩。却没有想过任务本身的重要性,因为任务都是先贤大佬们提出来的,我们做学生的只管冲就可以了。冲的过程中,收获是很大的,不仅要在数据处理、模型优化、硬件保障、实验分析上面花费很大的功夫,比赛完还得学会写技术报告、投稿、根据审稿意见修改论文,以及最可怕的一关,用英文在会议上报告和交流。可以说,花费半年时间参加一次评测,比单纯写一篇论文投稿要提升很多。特别是在国际会议上和同行交流,就好像进入了一个新的天地,信息量是非常的巨大。

过去做评测,基本上是学界的热点在哪里,就主攻哪里。十几年前,NLP远没有今天这么火,研究队伍没有这么大,研究的领域也主要是词法、句法、语义、机器翻译、问答等领域,都是相对独立的任务,评测就是技术攻关,看哪些问题需要解决和优化,就评测哪些问题。比如,机器翻译就是一个非常持久的评测项目,早已单独形成了会议和国内外专项评测。而计算语言学和NLP的评测,还是在CoNLL、SemEval为主的评测上展开。每年都有很多小而新的任务。

但是这两年,LLM(语言大模型,PS:此翻译更符合汉语)爆发了,在各种传统任务上都是刷榜的存在。所以单个任务的评测已经不那么吸引人,反而是如何评估和提升语言大模型成了一个关键任务。这是很自然的存在。因为各科研单位确实很需要知道自己的模型是不是开发得足够好,应该往哪个方向去改进。评估LLM,要么靠传统评测任务的大拼盘,看看是不是各种任务都提升了;要么是设计全新的语言能力测试,像雅思托福的办法。但是,这种评测的玩家(参赛队)只能是硬件算力爆棚的大公司、大机构、顶尖大学。普通的科研单位根本没有力量去研发大模型。所以,prompt(提示语,PS:此翻译更符合汉语)工程,在大模型上做特定应用的优化落地,则是中小团队能够参与实施的赛道,在国内外都形成了新的风潮。

在这样的变局之下,评测任务的设计也就出现了两种路径:一个是继续传统的单任务评测,一个是服务语言大模型的评测。前者可以利用LLM,后者则是服务于LLM。但是,前者遇到的问题是,往往一个新的LLM就可以提升传统的任务(比如情感分析,自动问答)。而更尴尬的,则是像句法分析这样的传统难题任务,parsing本身很难,过去的模型一直无法做到很好,也就无法为机器翻译、自动问答之类的应用服务提供比较好的基础。而现在LLM直接就提升了机器翻译的效果,那么句法分析存在的价值好像就被取代了。大家更喜欢LLM的评测和提升。

但是,我们要问一个问题:

中文评测的主阵地到底在哪里?

LLM的出现是否可以消解语言之间的差异?如果是这样,大家只需要做好英文的模型,然后到各种语言区泛化即可。然而,受限于算力,中小团队无力来做这样的研究。

多模态大模型Large Multi-media Modal的出现,是否可以消解和沟通不同模态之间的区别?如果是这样,那么大家需要做的是构建大规模多模态数据集。然而这样的工作,又只有大厂才具备数据采集和处理的能力。

于是乎,我们落到了一个窘境,要用要改LLM,就受限于算力,所以只能做调参、prompt工程和应用落地的事情。这样一来,中小团队就失去了核心竞争力与自身特色,成了LLM的周边。这样似乎非常悲观。

换一个角度来看,LLM的出现,给了大家更多的机会,可以很快地形成各种落地应用,过去做不好、做不了的很多事,现在可以做了。关键在于,从应用的角度要找好切口,找准应用。比如今年的手语识别任务就非常有意思。将来,手语的生成,唇语识别和生成,甚至更多目前想不到的日常应用,都可以拿来实验。

过去的词法、句法、语义、语用分析评测,目的是什么?传统的说法是达到对语言的准确理解。然而怎么算是理解了呢?还是要依赖于计算机中对词汇、句法语义、语用的表示框架。LLM的颠覆之处恰恰是抛弃了传统的符号化框架,转而采用向量化(张量化)的网络来进行表示。这里是模型构建的主战场,能不能在这里进行评测和竞赛,是很基础性的攻坚。

回到核心问题,中文的特殊战场在哪里?和英文一致,还是自成一席?这个问题争论了很久,现在从各种LLM的表现来看,LLM三要素:算力,模型和数据。算力拼的是钱,模型拼的是脑子,而数据最容易被戏称为“拼苦力”,没有技术含量。需要注意是的,再好的算力和模型,每种语言都需要高质量的数据才行。大多数人对数据的认识还停留在采集数据,而不关心数据的逻辑结构与信息标注。人工标注的高质量结构化数据,是做评测任务的基础,是评估模型好坏的依据。这才是我们依靠模型进步,找准应用落地的评测基点。

传统NLP任务的凋零,是一种无可奈何花落去的遗憾。然,不积蹞步,无以致千里;不积小流,无以成江海。大数据、大算力、大模型的时代来了,很是好事,评测的未来非常可观。



https://wap.sciencenet.cn/blog-39714-1444117.html

上一篇:现在的高校为什么无法安静搞科研?——吐槽之后的思考
下一篇:我们常说的学术训练是什么?
收藏 IP: 202.175.67.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-15 22:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部