李斌
语言资源与计算人文研讨会总结
2024-11-6 23:43
阅读:712

在这个言必大模型的时代,语言数据的重要性似乎没有那么重要。

但是在真正做开发的团队看来,数据是石油,高质量数据是金子,特别是对资源稀缺的语言来说,数据是系统开发不可或缺的关键。

GPU可以租,程序员可以花钱雇,模型可以从GitHub等处下载部署,但是唯独数据难寻。

有人说,互联网数据很多,但是有多少数据是稀缺的语种?在英语为主的LLM向其他资源稀缺的语言迁移应用时,数据少的语言,文化特性还能保存多少?

要解决各种语言的字符集问题,词库问题,语料库建设问题,计算应用问题,不只是技术上的问题,更是资金、人员、市场,特别是良性的商业模式问题,以保障长期稳定的研究与发展。

诸多专家亮出技术绝活,各有特色,这难得的文理交叉大会,期待未来能够延续下去,真正做出实绩来。

转载本文请联系原作者获取授权,同时请注明本文来自李斌科学网博客。

链接地址:https://wap.sciencenet.cn/blog-39714-1458903.html?mobile=1

收藏

分享到:

当前推荐数:2
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?