氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究:sunxjk@hotmail.com 微信 hydrogen_thinker

博文

AI解锁古代文本或将改写历史

已有 3602 次阅读 2024-12-31 08:52 |系统分类:海外观察

人工智能如何解锁古代文本——以及或将改写历史

 

从解读烧焦的罗马卷轴到识读破损的楔形文字泥板,神经网络有望为研究人员提供数百年来都未曾有过的大量数据。

 图片2.png

“碎片复原”(Fragmentarium)项目正在对数万片楔形文字泥板进行数字化处理,比如这块天文文本泥板。图源:慕尼黑大学(Ludwig-Maximilians-Universität)

 

2023年10月,一封电子邮件发送到了费德里卡·尼科拉尔迪(Federica Nicolardi)的手机上,邮件中的一张图片将永远改变她的研究方向。图片展示的是一片纸莎草卷轴的残片,它在公元79年维苏威火山爆发时被烧毁。这片烧焦的卷轴是18世纪在意大利庞贝古城附近的赫库兰尼姆(Herculaneum)一座奢华的罗马别墅遗址中发现的数百片卷轴之一。几个世纪以来,人们曾多次尝试剥开这些卷轴脆弱且碳化的图层,结果却使许多卷轴变得支离破碎,学者们不得不接受其余卷轴再也无法打开的事实。

 

尼科拉尔迪是意大利那不勒斯大学的一位纸莎草文献学家,她参与了一项利用人工智能(AI)解读这些无法识读内容的工作。如今,最新的成果已经出炉。图片展示的纸条状纸莎草上布满了整齐的希腊字母,在深色背景的映衬下显得格外清晰。上面的文字清晰可辨,有几行之深,横跨近五栏。

 图片3.png

人工智能技术助力揭示了这片来自赫库兰尼姆卷轴的烧焦纸莎草条上的字迹。图源:维苏威挑战赛(Vesuvius Challenge)

 

“太不可思议了,”尼科拉尔迪说道,“我当时想,‘这真的要实现了。’”她当即意识到纸莎草学将从此改变。“那一刻,我真切地觉得‘我正在经历一件将成为我所在领域历史时刻的大事’。”她正在阅读的是一段两千年来完全无法触及的完整文本内容。

 

这个名为“维苏威挑战赛”的项目只是一个例证,展示了已经给从银行业到医学研究等现代生活各个领域带来变革的先进人工智能,正如何准备重塑我们看待古代世界的方式。人工神经网络正被用于解读古代文本,从经典的希腊语和拉丁语,到中国的甲骨文(刻写在牛骨和龟甲上的古代占卜文字)。它们正在梳理那些浩如烟海、人类难以读完的档案资料,填补缺失和无法识读的字符,解码那些几乎没有任何留存痕迹的稀有失传语言。

 图片4.png

在维苏威火山爆发中被烧焦的卷轴一旦打开就会遭到损坏。图源:肯塔基大学埃杜斯实验室(EduceLab, University of Kentucky)

 

这些成果有望带来大量新文本,为学者们提供数百年来都不曾拥有过的丰富数据。但这还不是全部。由于人工智能工具能够识别比任何人所知晓的都更多的语言,存储更多的信息——并且能够自行发现文本中的统计模式——这些技术有望为探索古代资料提供一种全新的根本方法。尼科拉尔迪表示,这不仅会改变“我们想要解答的问题”,还会改变“我们能够提出的问题”。

 

古代文本的复原

几十年来,计算机一直被用于对数字化文本进行分类和分析。但当前令人振奋的情况源于神经网络的应用,神经网络由相互连接的节点构成分层结构,尤其是那种拥有多个内层的“深度”神经网络。

 

21世纪10年代,将深度学习应用于古代文本的早期尝试是基于文本(无论是纸莎草上的还是棕榈叶上的)的数码照片展开的。受视觉神经科学启发的卷积神经网络(CNNs)模型能够从图像中捕捉网格状数据。它们被用于光学字符识别,不过也有其他应用:研究甲骨文的中国团队就曾利用这类模型填补被侵蚀文字的图像、分析甲骨文随时间的演变情况以及拼接破碎的残片。与此同时,旨在处理线性顺序很重要的数据序列的循环神经网络(RNNs),开始在搜索、翻译以及填补已转录文本中的空白方面展现出巨大潜力。例如,它们已被用于为古代巴比伦数百篇格式化的行政和法律文本中的缺失字符提供建议。

 

神经网络能否超越加速繁琐任务的范畴,去建立人类专家都无法建立的联系呢?首个展现人工智能潜力的大型项目始于2017年英国牛津大学的一次合作,当时西娅·萨默斯菲尔德(Thea Sommerschield)正在攻读古代史博士学位,亚尼斯·阿萨埃尔(Yannis Assael)则在攻读计算机科学博士学位。萨默斯菲尔德当时正试图解读来自西西里岛的希腊铭文,她向阿萨埃尔说明了其中涉及的难题。“这些铭文解读起来非常复杂,保存状况很差,部分内容缺失,”她说道,“我们不太确定它们的出处以及年代;还存在各种有趣的方言混杂情况。”

 

古典学者通过运用他们对类似现存文本的知识来解读新资料。他们通常是特定时间和地点作品的专家;一个人不可能熟知所有与一篇新文本潜在相关的资料来源。阿萨埃尔(现就职于伦敦的谷歌深度思维公司)认为,这正是机器学习模型能够发挥作用的那种挑战。

 

研究人员最初用公元前7世纪到公元5世纪间书写的数万篇希腊铭文训练了一个基于循环神经网络的模型,名为“皮提亚”(Pythia)。然后,他们向该模型展示它从未见过的文本,并让它对缺失的单词或字符提出建议。

 

现就职于英国诺丁汉大学的萨默斯菲尔德仍记得当初和阿萨埃尔以及她的导师乔纳森·普拉格(Jonathan Prag)首次运行该模型时的情景,看着修复内容逐字出现在屏幕上,这在以前是根本不可能的事。

 

“那场面就像电影里的情节一样,”她说道,“我们当时真的惊得下巴都快掉了。”2022年,他们又推出了一个名为“伊萨卡”(Ithaca)的模型,该模型还能对一篇未知文本的年代和出处提出建议。这一次,研究人员利用了机器学习领域的一项突破——Transformer模型,该模型通过并行分析输入内容(如字符或单词)的不同特征,并根据上下文对其加权,能够捕捉到比循环神经网络更复杂的语言模式。(广受欢迎的聊天机器人,如OpenAI的ChatGPT和Anthropic的Claude,都是基于Transformer模型构建的。)

 

萨默斯菲尔德表示,团队的目标是设计能帮助研究人员更高效工作的工具:神经网络探寻庞大档案中的关联,而人类则发挥专业理解能力。“人类处于我们设计的核心位置,”阿萨埃尔对此表示认同。在测试中,“伊萨卡”对古代文本中人工制造的空缺进行复原的准确率达到62%,而人类专家的准确率仅为25%。但在“伊萨卡”建议的辅助下,专家们取得了最佳效果,填补空缺的准确率达到72%。“伊萨卡”还能以71%的准确率识别铭文的地理来源,并将其年代确定在公认估算值的30年误差范围内。

 

据其开发者介绍,“伊萨卡”可在网上免费使用,每周已经能收到数百条查询请求。萨默斯菲尔德表示,除非作者选择注明,否则很难知道它何时对研究做出了贡献,但到目前为止,已有一些相关案例被报道,比如对雅典政治法令重新确定年代,以及对公元前4世纪那些载有向希腊西北部多多纳神谕所提出问题的泥板进行的调查。

 

浩瀚的档案海洋

 

与此同时,韩国研究人员在处理世界上规模最大的历史档案之一时,面临着截然不同的挑战:这些档案是涵盖了从14世纪到20世纪初27位朝鲜国王在位时期的数十万篇详细的日常记录。“数据量非常庞大,”纽约大学领先的机器翻译研究员赵京勋(Kyunghyun Cho)说道。赵通常研究现代语言,但在与身为韩国文学退休教授的父亲讨论过这些档案后,他对其产生了兴趣。这些记录是完整的,其来源也清楚,但几乎没人能读懂它们。它们是用汉字(Hanja)书写的,汉字是一种基于中国汉字的古老书写系统,与现代中文或韩文不同。

 图片5.png

朝鲜王朝国王的档案正在由人工智能进行翻译和分析。图源:韩国国立故宫博物馆

 

一个小型的政府翻译团队正在努力将这些文本手动翻译成现代韩文,但这项任务可能需要数十年才能完成。赵与包括首尔成均馆大学的朴镇永(JinYeong Bak)在内的韩国同事合作,训练了一个基于Transformer模型的网络来自动翻译这些记录。由于目前翻译成现代韩文的资料还不够多,不足以训练这样一个模型,所以该团队采用了多语言的方法,使用了汉字、几十年前翻译成古韩文的版本以及数量有限的现代韩文和英文译本。人类专家认为,人工智能翻译的关于国事访问、惩处叛徒以及音乐会等事件的描述,比古韩文译本要准确得多、可读性也更强,在某些情况下甚至比现代译本更好。

 

在另一个层面上,研究人员正在利用神经网络处理那些仅有少量文本留存下来的古代语言。在这些情况下并不总能使用Transformer模型,因为它们需要大量的训练材料。例如,希腊帕特雷大学的卡捷琳娜·帕帕瓦西莱乌(Katerina Papavassileiou)及其同事利用循环神经网络(RNN)修复了来自克里特岛克诺索斯的1100片迈锡尼泥板上缺失的文本,这些泥板上写着公元前2千纪用线形文字B书写的关于羊群的账目。在对人工制造空缺进行的测试中,该模型的前十个预测结果中有72%包含了正确答案,而且在实际案例中,它的预测结果往往与人类专家的建议相符。为了进一步提高结果的准确性,帕帕瓦西莱乌希望加入视觉数据,比如不完整字母的痕迹,而不仅仅依赖转写文本。她还在研究“迁移学习”,即模型将从一系列泥板中学到的经验应用到另一系列泥板上。

 

帕帕瓦西莱乌希望有朝一日能利用基于线形文字B训练的模型来处理线形文字A,线形文字A是米诺斯文明使用的一种文字,它与线形文字B有许多相同的符号,但从未被破译过。

 图片6.png

来自米诺斯文明(公元前15世纪)带有线形文字A的泥板,这种文字从未被破译过。这些泥板发现于克里特岛的阿尔恰内斯。图源:德阿戈斯蒂尼/盖蒂图片社

 

解读无法识读的内容

或许能证明人工智能解决重大难题能力的终极证据,就是研究赫库兰尼姆卷轴的研究人员所取得的成功。“我认为他们正在做的是最了不起的工作之一,”阿萨埃尔说道。列克星敦市肯塔基大学的计算机科学家布伦特·西尔斯(Brent Seales)及其同事在维苏威挑战赛参与者的协助下,正在攻克一项看似不可能完成的任务——解读根本看不见的文字。

 

解读赫库兰尼姆卷轴涉及要克服两大难题。首先,这些脆弱的卷轴无法展开。为了看到卷轴内部的内容,西尔斯花费数年时间研发了“虚拟展开”技术,该技术需要对卷轴内部结构进行高分辨率计算机断层扫描(CT),然后手工精心绘制横截面每一帧中可见的表面,再利用算法将这些表面展开成平面图像。2015年,研究人员利用这项技术从以色列恩盖迪(En - Gedi)一片烧焦且无法打开的卷轴内部读取了完整的文本,其年代大约在公元3世纪,结果发现内容出自《圣经·利未记》。

 

恩盖迪卷轴有五层包裹;而赫库兰尼姆卷轴每卷都包含数百圈,薄如丝绸。因此,为了获取超高分辨率的CT数据,该团队将几卷卷轴运到了牛津附近的钻石光源粒子加速器处。但是,恩盖迪卷轴及其他后期作品的墨水往往含有铁元素,在CT扫描中会清晰地显现出来,而赫库兰尼姆卷轴的抄写员使用的是碳基墨水,由于它与所在的纸莎草密度相同,所以在扫描中无法看到。西尔斯及其团队意识到,尽管他们无法直接看到墨水,但也许能够探测到其形状。如果裸露的纸莎草纤维与涂有墨水的纸莎草纤维在表面纹理上存在细微差异,或许他们可以训练一个神经网络来发现这种差异。

 图片7.png

2019年,一片赫库兰尼姆卷轴在英国钻石光源同步加速器处接受扫描。图源:杰夫·卡迪克/法新社/盖蒂图片社

 

这对于西尔斯的小团队来说工作量太大了,于是他们在2023年3月与硅谷企业家纳特·弗里德曼(Nat Friedman)合作发起了维苏威挑战赛,该赛事设置了高额现金奖励。西尔斯及其同事发布了卷轴表面的展开图像,并要求参赛者训练神经网络来找出墨水痕迹。超过1000个团队参与了竞争,每天都有数百人在该赛事的Discord频道上讨论进展情况。2024年2月颁发了大奖:计算机科学专业的学生优素福·纳德(Youssef Nader)、卢克·法里托(Luke Farritor)和朱利安·席利格(Julian Schilliger)因呈现出16栏清晰可读的文本而共同获得了70万美元奖金。

 

获奖团队使用了TimeSformer,这是Transformer模型的一个较新的变体,通常用于视频,它能分别处理空间和时间维度。维苏威团队利用它将纸莎草的深度维度与其表面外观分离开来。尼科拉尔迪及其同事随后确认所揭示的文本出自一部此前未知的关于音乐、快乐和感觉的希腊哲学著作,可能是由伊壁鸠鲁派哲学家菲洛德穆(Philodemus)所著。她说,研究这部著作就像“魔法”一样。

 图片8.png

2024年2月维苏威挑战赛获奖者揭晓时,在这片烧焦的赫库兰尼姆卷轴内,近16栏希腊文字得以呈现。图源:维苏威挑战赛

 

从那以后,参赛者们一直在纸莎草文献学家的帮助下努力改进他们的墨水检测算法。与此同时,西尔斯的团队正在扫描更多的卷轴,并希望机器学习能够加快虚拟展开这一步骤。他表示,这是目前限制参赛者可用数据量的瓶颈所在。他乐观地认为,借助人工智能驱动的展开技术,有望及时赶得上有人赢得2024年大奖,该奖项奖金为20万美元,用于奖励解读四卷卷轴中90%的内容。“一旦实现自动化,基本上就能大规模展开了,”西尔斯谈及卷轴展开时说道,“我们即将迎来这一时刻。”

 

事实上,西尔斯想要解读整个藏书库的内容。赫库兰尼姆有数百卷未打开的卷轴被收藏着——大部分在那不勒斯,但也有一些在巴黎、伦敦和牛津。“对于纸莎草文献学家来说,这将是来自古代世界的、比他们一个世纪以来所见都要多的新文本,”他说道。

 图片9.png

一个动画展示了墨水检测模型是如何被用于解读赫库兰尼姆卷轴上的文字的。图源:维苏威挑战赛

 

这种方法也开启了获取其他难以触及资料的大门,西尔斯称之为“隐形图书馆”。这其中包括藏在中世纪书籍装订内或古埃及木乃伊裹布内的文本,对于这些文本,“东西就在这儿,我们也持有实物,但就是无法读懂上面的文字”。该团队已经从华盛顿史密森尼博物馆收藏的一卷未打开的埃及卷轴上获取了数据,并且正在商讨分析约旦佩特拉在公元7世纪一场火灾中被烧毁的纸莎草文献。

 

而且,一些考古学家认为赫库兰尼姆别墅的大部分藏书仍埋在地下。如果这些藏书有朝一日被发掘出来,可能会出土数千卷卷轴。西尔斯表示,解读所有这些卷轴将是“人类古代世界历史上最重大的发现”。“现在,我们有了这项技术。”

 

信息洪流

即便只是揭示四卷卷轴上的文字,对于纸莎草文献学家来说也将是一个巨大的挑战。“我们将有400栏希腊文文本要解读,”尼科拉尔迪说道,“我们需要更多资金来做这件事,因为纸莎草文献学家的数量不够。”西尔斯指出,传统上,纸莎草学“并非一种协作性的文化”,但“我们很快就会产出比整个纸莎草学界能够处理的量还要多的文本”。这就引发了诸如谁应该有权获取这些数据以及谁来监督成果发表之类的问题。“我们很可能会创建一个比现在规模大得多的全球学界共同体。”

 

如果大量新文本突然可供非专业人士使用人工智能工具进行研究,也会存在准确性和可重复性方面的担忧。例如,存在神经网络产生虚假结果的“幻觉”可能性。西尔斯及其他人强调,有必要组建由人文领域专家和计算机科学家构成的多学科团队开展工作。另一种保障措施是将所有数据——原始文本、扫描件以及用于分析它们的训练集和算法——都设为开源,西尔斯将其描述为数字溯源链。

 

“我们必须建立学术、文化和法律方面的机制,”牛津大学博德利图书馆馆长理查德·奥文登(Richard Ovenden)说道,该图书馆收藏了几卷赫库兰尼姆卷轴。但他认为,任何担心人工智能会挑战传统学术和专业知识的想法都是没有根据的。“人工智能所做的是为纸莎草文献学家提供他们原本无法获取的数据来开展研究,”他说道,“这使得他们的工作比以往任何时候都更加重要。”

 

其他领域也面临着类似的变化。德国慕尼黑大学古代近东文学专家恩里克·希门尼斯(Enrique Jiménez)与伦敦大英博物馆合作,拍摄了25000片楔形文字巴比伦泥板(大多可追溯到公元前1千纪后半叶),以便让人工智能能够解读这些文本,最近还获得了资金用于拍摄另外30000片泥板。在全球范围内,到目前为止,大约有100000片泥板已经被数字化了,而博物馆中可能还有500000片泥板常常未被解读而闲置着。该团队正在开发神经网络,用于从照片中识别楔形文字符号并确定其所属年代。一旦文本被转写出来,就可以使用更简单的机器学习技术来识别同一作品的重叠残片。这个名为“碎片复原”(Fragmentarium)的项目已经发现了《吉尔伽美什史诗》大约20行新内容,以及30份此前未知的歌颂巴比伦城的赞美诗副本。“这真的太令人惊叹了,”希门尼斯说道,“要是没有‘碎片复原’项目,要发现这么多手稿可能得花上几十年时间。”

 图片10.png

在这些古巴比伦晚期泥板残片上发现了此前未知的《歌颂巴比伦》赞美诗的诗句。图源:大英博物馆托管会

 

潜在的信息洪流令人兴奋,但也“令人望而生畏”,他说道。“我认为在未来10年或20年里,我们应该能把所有东西都数字化。可用资料的数量将呈指数级增长。”

 

提出新问题

这种数量上的飞跃可能会开启利用人工智能理解古代世界的新方式。通过探索规模空前的海量数字化文本档案,研究人员不仅能够更好地研究单篇文本,而且能够针对创作这些文本的社会提出更宏观的问题。

 

“我们将不得不改变思维方式,”尼科拉尔迪预测道,“这不仅仅关乎文本,还关乎整个文化。”

 

这种转变已经开始了。在韩国,有几个团队正在挖掘汉字档案,他们并非通过阅读这些档案,而是让人工智能模型梳理原始文本,以识别政治趋势和关联。朴镇永在去年8月于曼谷举行的计算语言学协会年会上报告称,他能够利用这项技术识别朝鲜王朝各位国王的统治风格。例如,燕山君(Yeonsangun)这位在1495年至1506年期间统治的臭名昭著的独裁者,随着其统治的推进,其随意决策的情况急剧增加,朴镇永认为这“反映出他逐渐沦为暴君”。相比之下,仁祖(Injo)这位在1623年至1649年期间统治、相对不那么专制的君主,一直保持着遵循大臣建议的稳定模式。

 

研究人员也越来越多地将各项任务结合起来,并将数据集整合到更大的模型中。对于赫库兰尼姆卷轴,西尔斯希望利用人工智能为纸莎草文献学家提供填补转录文本空缺的建议。不同的地理区域和时间段也能被连接到更大的系统中,以便在数据集之间获取更广泛的见解并相互借鉴。一个基于104种现代语言(包括希伯来语和阿拉伯语)训练的模型,在翻译古代美索不达米亚的阿卡德语(希伯来语和阿拉伯语均源于此语言)时表现得出人意料地好。赵京勋正在致力于将日本、韩国、中国和越南这些共享汉字的语言联系起来。不过,他最终认为这些见解可能具有全球性意义。他表示,最终目标将是“构建一个能够利用所有这些跨时空联系的系统”。

 

朴镇永希望这类研究能够超越简单的数据挖掘。到目前为止,机器学习一直被用于观察有趣的模式和数字趋势,但经过进一步训练,他希望类似聊天机器人的生成式人工智能工具能够围绕历史资料进行积极的推理和对话,“进而生成新的、虽为虚构但却有趣的数据”。

 

想象一下,如果像ChatGPT这样的聊天机器人能够基于那些新解读出来的海量文本进行训练。未来,如果我们想知道古代希腊人、韩国人或巴比伦人是怎么想的,或许我们只需问问它就可以了。 



https://wap.sciencenet.cn/blog-41174-1466720.html

上一篇:关节炎微环境调控的产氢纳米颗粒
下一篇:最新研究揭示安全的减肥策略
收藏 IP: 117.143.183.*| 热度|

3 王涛 郑永军 池德龙

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-5-17 14:00

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部