数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

建全大型语言模型(LLM)会使学术出版新增收入吗?

已有 1271 次阅读 2023-10-15 18:48 |个人分类:STM出版|系统分类:海外观察

引用本文请注明出处

作者:AVI STAIMAN

译者:王珂

校译:檀湘琦

来源:https://scholarlykitchen.sspnet.org/2023/08/08/will-building-LLM-become-the-new-revenue-driver-for-academic-publishing/

面对人工智能(Artificial IntelligenceAI)在各行各业掀起的巨浪,学术出版业一个重要的问题似乎在逐渐凸显:学术出版商是否已做好准备同大型生成式AI公司(如 OpenAIAI21 LabsNIVIDIA Anthropic)合作、成为其强有力的内容供应商?

学术出版商是生成人工智能的大赢家之一吗?

当前,保证生成式AI训练语料的可靠性以及确定其生成结果的准确性,是生成式AI模型(包括GPT版本)面临的重要问题。虽然大型语言模型(Large Language ModelLLM)功能的强大之处不言而喻,但实际使用过程中LLM的某些输出结果却不尽人意。为保证得到最佳输出结果,满足现实生活中的利益(包括公共利益)所需,我们需要将经过同行评议验证后的高质量内容“投喂”给LLM,以便获取最佳输出结果。现实世界中,医疗、商业、法律等行业对AI应用的真实性、准确性都有着极高要求,以便在实际工作中获得适应不同行业需求的、可行的AI产品。然而,倘若我们继续依赖那些来路不明的通用型LLM,会面临“输入垃圾数据、输出垃圾数据”(“rubbish inrubbish out”,此句广泛应用于数学、计算机等领域,代指由于信息不完整而做出错误决策等类型的情况)的风险。因此,提高LLM生成结果的可信度势在必行。

政府和企业一般在着手高难度、高价值的项目时,会寻求学术出版商的帮助,从而确保内容的准确度与高质量。AI公司大概率也会向知名学术出版商们寻求类似的合作。这不仅是为保证其模型的内容质量,还能借此提高公司自身在学术界的信誉,获得业界认可。

其实,学术出版商收到AI公司的合作邀请属于意料之中。比如,爱思唯尔(Elsevier,学术出版业巨头)长期研究如何建立模型,从而利用其旗下临床数据库中的信息,结合临床、财务和实操数据等多方面考量,为医生提供专业的最佳治疗方案。就在上周(今年8月初),Scopus(全世界最大的摘要和引文数据库)、Dimensions(浏览器插件) Web of Science(简称WOS,最权威的科技文献检索平台) 推出了新的对话式AI产品。其中运用的小型语言模型(small language modelsSLM)与风靡全球的“通用”模型相比,对自然语言的处理更具有针对性。

学术出版商成功建立LLM需要什么条件?

首先,建立LLM需要大型数据集作支撑。学术出版商的现有规模、影响力和涉及的学科领域等,都是决定建立LLM能否成功的主要因素。规模大的出版商能利用其本身拥有的足够资源与专业背景率先做出尝试,规模较小的出版商可以考虑先从这些大型出版商的实践中学习经验,比如从他们的官方公告中探寻其发展方向,再结合自身情况制定方案为己所用。已具备国际影响力的学术出版商有着涵盖多领域庞大的数据库资源,期待他们日后能在数据可量化、可循证领域做出表率。


图 1 学术出版商成功建立LLM所需要的条件

另一方面,小规模的出版商也不应急于否认自己在建立LLM方面的可能性。数据许可联盟(Data Licensing Alliance)的David Myers表示:“不管数据集的规模大小如何,真正关键的是数据相关性。部分小型出版商在其特定的学科领域发展突出。因此,AI公司会选择与这类出版商寻求优先合作,而不是爱思唯尔这样的大型出版商。没有这些专精于某一学科领域的小型出版商,AI训练数据难以具有真正意义上的全面性”。

学术出版商该如何实现内容变现?

按传统模式来讲,出版商通过将其内容授权给相关合作方的模式获利,但目前仍无法界定此类内容的使用是否属于“合理使用”(fair use)范畴,也不清楚是否需要额外的许可证明。如此看来,对想要从学术出版商手中获得内容授权的公司来说,AI工具的内容抓取给他们开出一条“捷径”。反之,出版商可以拓展服务项目,为拿到授权的公司、组织和政府提供增值内容服务。美国版权结算中心(Copyright Clearance CenterCCC)的总经理Roy Kaufman说:“据美国版权法规定,在获得许可的情况下,法院更倾向于做出有利于版权所有者的判决。”其实,被动贡献内容来增加收入并非是学术出版商搭上人工智能这趟快车的唯一方式,他们大可利用内容储备的优势自行创建LLM这类模型,以下分享3条思路:

1.与大型AI公司合作

目前,大多数出版商并不具备建立LLM所需的核心技术以及专业技术人员,故选择与AI公司合作也不失为良策。比如,最近科睿唯安(Clarivate,全球领先的专业信息服务商)为实行“推动生成式AI增长战略”,宣布与 AI 21 Labs (一家位于以色列的人工智能初创公司)展开合作,AI21 Labs因其大语言模型Jurassic-2生成内容的真实性、可靠性,被视为OpenAI的强劲对手。从本次双方的合作中是否能推断出,更多内部难有技术支持的学术出版商与技术公司间的大型合作项目正在酝酿之中?小型学术出版商也会有这样的合作机会吗?他们会选择和大数据聚合平台或版权聚合商合作吗?

2.“数据许可+”解决方案

一些公司会要求合作的出版商在审核资源、反馈LLM输出结果质量等方面投入更多精力。出版商可以将所持有的内容资源变现,但目前不确定的问题尚多:比如如何处理独家许可协议、与哪些交易方达成合作,以及内容所有者何时实现许可收入最大化。

3.出版商内部建全 LLM

随着之后创建LLM的门槛及费用越来越低,出版商或许可以利用自身的内容资源创建LLM并应用于正在开展的项目中,从而助力他们达成企业社会使命,并最大限度地回馈资方。不过训练大型模型要花费巨大的时间和金钱成本,目前有能力实行这样操作的出版商甚少。但现状在开放式 LLM 快速普及后应该会得以改变。

耐心等待,伺机而动

尽管如此,部分出版商在观望对家的同时已跃跃欲试,但生成式AI引发的版权问题也使得一些出版商浅尝辄止,毕竟谁也不愿被卷入一场对簿公堂的持久战中。另外,还有部分出版商打算等到确保自己手上内容的价值能大赚一笔时,再加紧投入时间和资金去达成这笔买卖。可是,市场的瞬息万变给这类伺机而动的出版商们带来不小的挑战,因为稍不留神“蛋糕”便会被其他有着强竞争力的对手夺走吃掉。

开放存取出版遇挫折?

经过同行评议后的内容对AI公司的价值不言而喻。那么,付费墙锁定的内容是否比开放获取(open accessOA)的内容价值更高?这个问题的答案取决于OA内容是否获得特别出版许可(例如知识共享许可协议等)、以及OA出版商在多大程度上为AI公司提供内容资源。

那些保留大量非公开内容资源的出版商,例如电气与电子工程师协会(Institute of Electrical and Electronics EngineersIEEE)或《新英格兰医学杂志》(The New England Journal of Medicine NEJM)等仍会保留最具价值的资源吗?那些遵循更为严格的出版许可协议(例如CC BY-NCCC BY-NC-ND)的出版商,其收入是否会被只需要使用CC BYCreative Commons Attribution License)的出版商所抢占?Journalology的通讯作者James Butcher指出:“如果一些出版商断定把内容授权给生成式AI公司是一个更加有利可图或更安全的收入机会,那他们可能不太愿意加快向完全开放获取转变的进程”。

解决该问题的要点还是在于弄清楚LLM已采集哪些内容,且这些已采集内容是否拿到正规授权。AI在未经许可或协商的情况下获取大量内容的合法性始终存疑。最近,美国联合通讯社(Associated PressAP)和OpenAI(美国人工智能研究公司)在合作协议中明确表示,最好双方都能私下主动达成协议,而不是日后在法庭上争锋相对。

解决该问题的要点还是在于弄清楚LLM已采集哪些内容,且这些已采集内容是否拿到正规授权。AI在未经许可或协商的情况下获取大量内容的合法性始终存疑。最近,美国联合通讯社(Associated PressAP)和OpenAI(美国人工智能研究公司)在合作协议中明确表示,最好双方都能私下主动达成协议,而不是日后在法庭上争锋相对。

作者会受到什么影响?

那么,作者可以从这场交易中获益吗?作者是否不用考虑与出版商之间的协议,直接通过版权集体管理组织(Collective Management OrganizationCMO)的许可就能够从自己作品中获得收入?大多数开放获取政策要求作品版权归作者所有,但采取此政策的出版商也会让作者签署一份独家许可协议,即除作者可依照CC-BY协议出版作品外,只有出版商才有将作品许可给他人的权利。

假设作者没有收入分成,那么出版商为牟取商业利益使用其作品的做法是否会引起公愤?是否会有研究人员效仿Sarah Silverman(美国喜剧演员,曾起诉OpenAIMeta公司在训练AI模型中侵犯其版权)的做法,向生成式AI公司或与AI公司合作的出版商提起诉讼?如果出版商真的采取前文所述的方法获利,会不会促使学者们挣脱出版商的桎梏,独立出版作品?会不会有更多期刊编辑为抗议权利不平衡而辞职?或者,出版商可以尝试投资自建一个提供给作者们免费上传内容的平台,以便他们将该平台的内容用于生成自己的模型。

出版商有能力打造一个好用的LLM吗?

Digital Science(一家科技公司)首席执行官Daniel Hook在最近的博客中提到,他在尝试让Midjourney(一款AI绘画工具)生成一个单独的香蕉图案时遇到了麻烦。他提出,即使是目前最先进的LLM也存在盲点或信息缺失之处。理论上来讲,小型数据模型有时会优于大型数据模型,但LLM对特定领域的数据覆盖越全面,其输出结果会相对更完整。倘若还是无法保证某领域知识的完整性,就算拿到每家出版商内容的授权,结果还是徒然。

换个思路,谁会真正拥有完整内容?是否会有一家公司或机构能够从不同出版商那里获得所需数据的授权,再将内容资源整合起来,最后创建出真正可行的 LLM?国际科学、技术和医学出版商协会 International Association of Scientific, Technical and Medical PublishersSTM)或全球学术与专业出版商协会(Association of Learned and Professional Society PublishersALPSP 等学术出版业协会能否填补空白?美国出版商Wiley作为科研和教育出版领域的全球领导者,可否先行试验,与现已合作的出版商展开LLM的建立计划?

小结

Roger Schonfeld提出,学术出版商需具备“黄金三要素”——数据授权、数据训练、AI操作能力,才能使LLM建立成功。

图 2 学术出版商成功建立LLM“黄金三要素”

LLM需要输入高质量的结构化数据,有些出版商已经在此方面有所进展。对于目前还没理清思绪、无从下手的出版商,当务之急是整理好元数据。理想情况下,出版商应争取获得完全结构化的数据,但即使只能获得以XML文件格式验证过的数据也算是一个良好开端。例如,CCC已经将获取数据的过程系统化,并通过其RightFind XML服务与业界合作。其他公司,例如数据许可联盟(Data Licensing Alliance)则为各种形式的内容提供市场服务,让获得内容授权的一方管理内容的摄取。

与此同时,出版商在考虑如何整理数据时,还要仔细斟酌许可哪些数据、移交哪部分权利、移交对象是谁。并且,他们需要明白对方的AI操作能力是否匹配该项目的需求,以及合作过程中能给自己带来何种程度的收益。

AI与学术内容结合可以创造出新的价值,两者结合产生的实用案例越多,说明借助AI技术生产知识、传播知识的价值越大。出版商有义务使其提供的内容与自身所在学科领域尽可能相关,并做好将这种策略纳入其迈向生成式AI行业规划的准备。

如果能像我预想的那样,学术出版商的内容策略能被适当利用并发挥价值的话,那么生成式AI公司将学术出版商作为收购目标也并非是天方夜谭了。



https://wap.sciencenet.cn/blog-521339-1406018.html

上一篇:支持还是反对?一场关于学术期刊内生性的辩护
下一篇:同行评审的复兴:对于转型的迫切要求
收藏 IP: 171.113.203.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 06:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部