|
人工智能提供缺失文本预测日期和位置
铭文是了解古代世界最重要的资料之一,有助于研究人员了解古代社会人们生活、经历和关注点的多个方面。解读这些文字及其载体是一项重大任务,学者们往往需要处理那些已损坏或已脱离原始位置的物品。阿萨尔等人在《自然》杂志中介绍了一款名为“埃涅阿斯”(Aeneas)的人工智能工具,它能帮助历史学家对公元前7世纪至公元8世纪的拉丁铭文进行预测、断代、定位并还原其背景信息。
学者通常需要多年时间才能积累足够的专业知识来解读古代铭文,这些铭文涵盖的主题极为广泛,包括法律、死亡与纪念、宗教、军事生活、贸易和家庭生活等。历史学家不仅要理解文字及其细微差别,还要熟悉字体特征、词语的缩写形式(尤其是高度缩写的拉丁铭文)、地方变体以及铭文载体的视觉元素。
除了寻找铭文之间在文字和视觉上的相似之处,学者们还必须收集这些文物在不同时代和地区的使用情况等专业知识。所有这些考量都是研究工作的关键部分,正是这些“侦探式”的工作让学者能够成功地将铭文置于其时间和地理背景中。另一大挑战是推测已损坏铭文中缺失部分的内容——这一过程同样依赖于对大量相关纪念碑和物品的文字相似性的深入了解。
该研究的几位作者此前参与开发了一款名为“伊萨卡”(Ithaca)的人工智能工具,它采用深度学习网络这一机器学习方法,帮助学者预测古希腊铭文中缺失的部分。此次,阿萨尔及其同事在这一工作的基础上进行了多项显著改进,将重点放在了拉丁铭文上。他们创建了一个生成式神经网络,这种人工智能工具能够从用于训练它的数据中学习识别模式,然后基于这些模式提出建议。
这款工具以传说中的特洛伊英雄、罗马人的祖先埃涅阿斯(Aeneas)命名。在分析和预测铭文时,它既能评估铭文载体的视觉特征,也能分析文字本身。这是一项可喜的进步,纠正了以往大多数人工智能工具仅关注文字的局限。
作者们还在之前的工作基础上,纳入了历史和语言元数据(称为“富含历史信息的嵌入”),这样当工具推荐相关铭文时,历史学家就能找到与自己所研究铭文相关的相似内容。这对于解读这些资料并还原其背景至关重要。
“埃涅阿斯”在另一个方面也超越了以往的研究,实现了重大飞跃——该工具能够预测长度未知(而非已知)的缺失文字内容(图1)。这对于研究那些严重损坏的铭文的人来说非常有用,而这种情况极为常见。
图1 | 对缺失拉丁文字的预测。阿萨尔等人提出了一款名为“埃涅阿斯”的人工智能工具,它能预测已损坏铭文中缺失的文字(红色文字)。该工具无需知道缺失部分的长度即可进行预测,例如这份军事文书样本就是如此。(改编自参考文献1的图1)
为了测试这款工具,作者们邀请了历史学家(从硕士研究生到教授)使用“埃涅阿斯”并对结果提供反馈。在90%的案例中,历史学家认为“埃涅阿斯”推荐的文字和背景相似内容是他们研究的有用起点。有趣的是,历史学家与“埃涅阿斯”合作时,在文字预测和地理溯源方面的结果要优于学者单独研究或“埃涅阿斯”单独工作的结果。“埃涅阿斯”对铭文的断代能力尤其令人印象深刻:它预测的年代与真实年代范围(历史学家提供的用于测试该工具估算能力的已知年代范围)平均相差仅13年。考虑到铭文断代的复杂性,这样的准确度极具前景。
作者们承认,“埃涅阿斯”存在一些局限性。鉴于这类研究的目标极具挑战性,且铭文本身具有多变性,这并不奇怪。作者能够纳入对应图像的铭文比例相对较小,仅为5%。这虽然没有降低该研究中视觉分析部分的价值,但也表明这项工作可以为未来关于铭文图像的有价值研究奠定基础。
由于与古代历史学家进行的测试时间较短,受到实际条件限制,无法完全模拟拉丁铭文学者通常的工作流程(这种流程通常会持续数周或数月)。未来的研究中,若能探究“埃涅阿斯”在更常规情况下的使用情况,将会很有意义。
“埃涅阿斯”在某些地区和时期的表现优于其他地区和时期,尤其是在公元200年左右这一时期表现最佳——历史学家不仅拥有这一时期最多的铭文证据,而且这些铭文的断代也最为准确。显然,当有更高质量的训练数据时,“埃涅阿斯”的表现会更好,作者们也指出,他们将寻找方法来解决不同时期表现差异的问题。
阿萨尔及其同事为古代历史学家提供了一款开创性的研究工具。它能帮助学者发现数据中那些可能被忽视或需要耗费大量时间才能挖掘出的关联。值得关注的是,那些日常研究拉丁铭文的学者会在多大程度上用“埃涅阿斯”开展自己的研究,以及他们将如何为有关人工智能分析古代资料的更广泛讨论贡献力量。
这类工具不必局限于古代历史学家使用;此类人工智能还有很大的潜力,可以扩展应用到更晚期的铭文研究中,也可以为其他语言开发类似工具,以帮助解决不同领域的类似挑战。尽管这类工具可能仍会受到一些人的质疑,但对于研究古代社会数量庞大的铭文而言,传统学术研究和人工智能方法都有其存在的空间和必要性。古代历史学家已经注意到,人工智能的使用促使学者们反思自己的工作方式以及知识的获取和传播方式。对“埃涅阿斯”这类工具进行试验并思考这些问题,只会对研究以及未来对古代资料的理解有所裨益。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-8-2 15:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社