||
近期,英国档案与文件协会Archives and Records Association(UK&Ireland)发布了《档案管理员人工智能准备度指南(AI preparedness guidelines for archivists)》,翻译如下。
引言
人工智能(AI)已成为档案领域的热议话题。管理者们不禁发问:AI能否加速档案著录工作、识别敏感内容或提供全新利用方式?
本文提供了如何让档案实现"AI就绪(AI-ready)"的指南,同时坚守档案原则和伦理承诺。
核心观点
AI可以有效支撑档案工作,但前提是必须要有充足的准备、规范的记录和治理,确保馆藏档案"AI-ready"。自动化是有条件的必要手段,而非灵丹妙药。
"AI就绪"的含义
档案机构目前主要有两类AI工具:一是用于完成特定任务的专用AI:专为特定任务训练的模型,如文件分类、识别名称/地点/日期、标记敏感信息等;二是生成式通用AI:大型语言模型可以摘要档案内容、提炼关键词、或基于文件内容回答问题。
对于档案工作而言,最重要、最适合的方法之一是检索增强生成(RAG),即先检索相关文件,再基于这些文件材料生成回答,有效减少"幻觉"。
无论使用哪种类型的工具,AI只有在满足四个主要维度准备度时才有用且值得信赖:完整性completeness、元数据与访问metadata and access、数据类型与格式data types and formats,以及应用特定的指标。application-specific metrics:
支柱1:完整性与排除的数据
Pillar 1-Completeness and excluded data
完整性要求的是你的数据在多大程度上反映了底层情况:
-所有物品都是数字化的,还是只有部分?
-某些时期、责任者或群体是否缺失或代表性不够?
-是否有一些文件被认为剔除(如法律或隐私原因)?
使用人工智能不需要追求完整性。不过,你需要明确目前资源的完整性程度以及剔除的原因。这些数据应记录在集合级(collection-level)元数据或简短文档中,确保AI工具也能查阅。
良好实践包括:
-明确说明语料库是完整、部分还是样本;
-解释为何某些材料缺失(如尚未数字化、法律限制、遗失、选择);
-标记已知偏见内容。
对于生成式人工智能,这些文档将有助于模型和用户理解数据的范围和局限。对于任务特定型的人工智能,它决定了该训练模型的推广应用范围。
支柱2:元数据和访问
Pillar 2-Metadata and access
高质量元数据是传统利用和人工智能应用的基础。需要重点关注:
-Item-level metadata条目级元数据:即使是极少的元数据(如日期、作者、简短标题)也能极大提升检索和AI辅助描述效果。
-Provenance and relationships来源与关系:关于文件的来源、整理方式(系列、子系列)及其相互关系的信息必须被保存,确保机器和人类可读。
-Narrative and discursive metadata描述与话语(?)元数据:生成式人工只能可以高效处理非结构化文本,叙述性的信息(如策展笔记、解释性文章、馆藏指南和上下文信息)都是有用的参考,可以丰富AI生成的摘要、帮助AI理解历史和文化上的细微差别、揭示权利、沉默和伤害等问题
-Access conditions and sensitivity利用要求和敏感规则:以结构化形式记录哪些内容是开放利用、限制利用或不允许利用,及其原因。人工智能系统必须遵守这些访问规则。
支柱3:数据类型、格式和文件结构
Pillar 3-Data types,formats and file structures
人工智能需要能够高效地读取和检索数据。这要求档案要:
-保留来源,不要覆写:原始文件名、格式、日期和文件夹结构均包含在档案记录中。重要的是不要直接清理或规范这些内容,而应该保存原始文件和结构、为AI创建结构良好的衍生(derivative)复制品。
-统一数据格式:对于文本,应采用UTF-8纯文本、XML或类似格式;对于图片,应采用TIFF或JPEG格式
-使用清晰且规则明确的文件和文件夹命名:文件路径应可以清晰显示出文件所处层级、能够可靠地关联原始记录或参考代码、支持通过API等方式检索。
目标不是消除原生数字收藏的复杂性,而是增加一个稳定且有记录的中间层(add a stable,documented layer),便于AI工具使用。
支柱4:应用特定指标和评估
Pillar 4-Application-specific metrics and evaluation
每个人工智能项目都需要一个判断自己是否有效的方法。不要用通用指标,而是定义符合你目标和用户的应用特定指标。
例如:
对于AI辅助著录:生成内容采纳率、节省时间、档案员主观评价等。
对于AI辅助敏感信息筛查:准确率、误报率、是否忽略关键问题等。
对于RAG智能问答:查询的准确率和召回率、用户的满意度、链接的透明性等。
提前制定一个简单的评估方案:评估什么、如何以及由谁评估。这将有助于回答资助者和管理者关于人工智能是否能带来价值及管理风险的问题。
档案馆的AI辅助工作流程
1.辅助描述性元数据生成:自动从文本中提取标题、日期和摘要;基于受控词汇建议主题关键词;文件分类建议
注意:所有输出内容必须经过档案管理员审查,并不可以作为权威建议
2.辅助敏感性审查:标记个人身份信息和涉密内容、识别不当语言(种族主义、性别歧视等)、优先处理需人工审查的项目
注意:工具不能替代档案管理员的法律和伦理判断
3.辅助档案利用:基于RAG的系统回答用户问题;使用自然语言摘要复杂档案内容;提供多语言服务
注意:应明确透明展示覆盖范围,清晰链接回原始记录
实施检查表
启动AI项目前,确认:
✓明确定义的问题和用例
✓了解并记录数字馆藏的完整性
✓具备基本的项目/馆藏级元数据
✓创建了标准化的衍生数据
✓设定了应用特定评估指标
✓建立人工审核流程
如条件不成熟,应优先投资数据准备工作——这本质上是档案专业工作的延伸,确保AI增强而非削弱档案价值。
Reference:
Written by:Prof.Giovanni Colavizza,University of Copenhagen and University of Bologna and Prof.Lise Jaillant,Loughborough University(UK)
Colavizza,Giovanni,and Lise Jaillant.AI Preparedness Guidelines for Archivists.February 2026.Archives&Records Association(UK&Ireland).
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-4 17:38
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社