阅读论文《Few-shot In-context Learning for Knowledge Base Question Answering》
一. Introduction
KBQA的重要性: 知识库问答(KBQA)是人工智能领域的一个重要研究问题,它使得大规模知识库能够被非专业用户访问和使用,在帮助用户快速获取知识库中的信息方面具有重要作用。
KBQA面临的挑战:(1)数据密集性:大型知识库需要大量的标注数据来训练模型,以便模型能够在这些知识库上泛化良好 (2)数据集特异性:对于较小规模的KBQA数据集,完全训练的模型往往会过拟合到特定的知识库结构,难以泛化到未见过的领域。(3)知识库模式的异构性:不同知识库之间的模式差异很大,这使得针对一个知识库训练的模型很难直接迁移到另一个知识库上。
现有方法的局限性:现有的KBQA方法大多依赖于语义解析(semantic parsing),即将自然语言问题映射到知识库上的逻辑形式- 这些方法虽然在大规模数据上表现出色,但需要大量的标注数据来微调模型,且难以在低资源和无训练设置下工作。
大语言模型的潜力:近年来,大语言模型(如GPT-3和Codex)在少样本和上下文学习方面表现出强大的泛化能力,这些模型能够在仅通过少量示例的情况下,完成多种自然语言处理任务,包括问答、信息抽取和数值推理等,然而,将LLMs应用于KBQA任务仍面临挑战,因为KBQA需要处理包含数百万节点和数十亿边的大型知识图谱,而这些图谱无法直接作为输入提供给语言模型。
本文提出的解决方案-KB-BINDER:(1)KB-BINDER框架:本文提出了KB-BINDER,一个首次实现KBQA任务的少样本上下文学习框架 (2)生成草稿:KB-BINDER利用大语言模型生成问题的逻辑形式草稿。这些草稿是初步的逻辑形式,可能包含错误的实体和关系。(3)知识库绑定:通过知识库中的信息,将草稿中的实体和关系绑定到实际的可执行逻辑形式上。(4)实验结果:KB-BINDER在四个公共的异构KBQA数据集上表现出色,仅使用少量上下文示例就能达到与全训练模型相当甚至更好的性能。
KB-BINDER的意义:KB-BINDER提供了一个简单且通用的解决方案,能够在低资源设置下有效处理KBQA任务,该框架可以作为未来KBQA研究的重要基线,尤其是在资源有限的情况下。
二. Related Work
1. Knoweldge Base Question Answering(KBQA):
(1)语义解析方法:大多数现有的KBQA模型基于语义解析技术,将自然语言问题映射到知识库上的逻辑形式。这些方法在处理大规模知识库时面临巨大的搜索空间挑战。
(2)数据密集性问题:传统KBQA方法需要大量标注数据来训练模型,以便模型能够在特定的知识库上泛化良好。这限制了它们在低资源场景下的应用。
(3)数据集特异性问题:许多KBQA模型在特定数据集上表现出色,但在未见过的领域或知识库上泛化能力较差。这表明现有方法对特定知识库结构的依赖性很强。
(4)少样本KBQA的挑战:少样本KBQA是一个尚未被充分探索的领域。现有方法通常需要数千个标注样本进行微调,而少样本设置下的KBQA被认为是非常困难的。
2. LLM在KGQA中的应用:
(1)LLMs的泛化能力:近年来,大语言模型在少样本和上下文学习方面表现出色,能够在多种自然语言处理任务中实现强大的泛化能力。
(2)LLMs在KBQA中的挑战:尽管LLMs在其他任务中表现出色,但直接将它们应用于KBQA任务面临挑战。KBQA需要处理大规模知识图谱,而这些图谱无法直接作为输入提供给语言模型。
(3)相关工作:一些研究尝试利用LLMs的生成能力来解决KBQA任务,但这些方法通常需要大量的标注数据来训练模型,或者依赖于特定知识库的启发式规则。
3. 上下文学习:
(1)定义:上下文学习是指通过在prompt中提供少量示例来指导语言模型完成特定任务。这种方法在少样本学习中表现出色。
(2)应用:上下文学习已被成功应用于多种自然语言处理任务,如问答、信息抽取和数值推理等。
(3)机制:一些研究分析了上下文学习的机制,发现通过提供输入-输出对的示例,可以显著提高语言模型的性能。
4. LLM的推理能力:
(1)推理方法的改进:一些研究通过引入中间步骤(如链式推理)来提高LLMs的推理能力。
(2)程序合成方法:最近的研究表明,通过合成形式化的程序来解决任务可以进一步提高LLMs的推理能力。
(3)相关工作:Binder方法通过将LLMs生成的SQL命令与数据库结合,展示了LLMs在问答任务中的潜力。然而,KBQA任务中的知识库规模更大,关系更复杂,需要更有效的绑定方法。
5. KB-BINDER的创新点:
(1)生成-绑定方法:KB-BINDER首次提出了一种生成-绑定方法,利用LLMs生成初步逻辑形式草稿,并通过知识库绑定生成可执行的逻辑形式。
(2)少样本学习:KB-BINDER是第一个真正实现少样本学习的KBQA框架,能够在仅通过少量示例的情况下达到与全训练模型相当的性能。
(3)通用性和低资源设置:KB-BINDER不依赖于特定知识库的启发式规则,具有很强的通用性,适用于低资源设置。
三. Method
框架概述: KB-BINDER是一个少样本上下文学习框架,用于知识库问答任务,该框架包含两个主要阶段:生成草稿(Draft Generation)和知识库绑定(Knowledge Base Binding),目标是利用大语言模型的生成能力,结合知识库的信息,生成可执行的逻辑形式,从而回答问题。
Draft Generation:(1)利用LLMs生成逻辑形式草稿:KB-BINDER使用Codex等大语言模型,通过上下文学习生成问题的初步逻辑形式(草稿)。 (2)示例对的选择:从训练集中随机选择N个示例对(问题及其对应的逻辑形式),展示给LLM作为生成草稿的参考。(3)处理MIDs(机器标识符):将原始逻辑形式中的MIDs替换为实体的表面名称,以便LLM更好地理解和模仿逻辑形式。(4)生成的草稿特点:生成的草稿是初步的逻辑形式,可能包含错误的实体和关系,但能够揭示问题中实体之间的语义和结构关系。
Knowledge Base Binding:(1)实体绑定:从草稿中提取问题中提到的实体表面名称;如果这些名称与知识库中的实体友好名称(friendly names)匹配,则选择最流行的实体作为候选;如果没有匹配,则使用BM25算法检索最相似的实体;如果草稿中包含多个实体表面名称,则独立绑定它们的潜在实体,并考虑它们的所有排列组合。(2)关系绑定:假设草稿中生成的初步关系格式和语义与真实存在的关系类似;使用BM25算法检索与草稿中关系最相似的知识库关系;为了提高逻辑形式的可执行性,仅保留从当前实体排列的2跳范围内检索到的关系;对于每个实体排列组合,迭代所有检索到的关系候选。(3)多数投票:一个草稿可能绑定到多个潜在的逻辑形式候选;每个候选逻辑形式可以转换为SPARQL查询并执行,以获取答案;通过重复执行K次(K为草稿数量),并采用多数投票策略,选择最一致的答案及其逻辑形式。
四. Experiment
数据集:GrailQA、WebQSP、GraphQA、MetaQA
实现细节:使用OpenAI的code-davinci-002 API生成草稿,测试K=1和K=6的情况(分别表示使用1个和6个草稿进行多数投票);对于每个数据集,随机采样N个示例对作为上下文学习的参考;在绑定步骤中,设置实体绑定的候选数量n=15,关系绑定的候选数量m=10(GrailQA、WebQSP和GraphQA)或m=1(MetaQA);使用BM25和Contriever作为混合搜索器,检索未匹配的友好名称和关系候选;将绑定后的逻辑形式转换为SPARQL查询,并在Virtuoso服务器上执行。
主要结果:(1)GrailQA:KB-BINDER(6) 在40-shot设置下达到了50.6的EM分数,与BERT+Ranking(全训练模型)相当;KB-BINDER(6)-R进一步提升了性能,EM分数达到53.2。(2)WebQSP:KB-BINDER(6)-R在100-shot设置下达到了74.4%的F1分数,与全训练模型DecAF相当。(3)GraphQA:KB-BINDER(1)和KB-BINDER(6)在100-shot设置下分别达到了39.3和39.5的F1分数,超过了之前的最佳模型7.7个百分点。(4)MetaQA:KB-BINDER(1)在5-shot设置下在2-hop和3-hop任务上分别达到了99.6%和96.4%的Hits@1分数,与之前的最佳模型相当;KB-BINDER(1)-R在3-hop任务上达到了99.5%的Hits@1分数,创下了新的最佳性能。
实验分析:(1)少样本性能:KB-BINDER在少样本设置下表现出色,尤其是在GraphQA和MetaQA数据集上,甚至超过了全训练模型。(2)KB-BINDER-R的优势:KB-BINDER-R通过检索与目标问题最相似的示例对,进一步提升了性能,尤其是在WebQSP数据集上。(3)泛化能力:KB-BINDER在组合型和零样本问题上的表现优于现有的全训练模型,表明其具有更强的泛化能力。(4)性能提升因素:增加示例对的数量和草稿的数量可以提升KB-BINDER的性能,但也增加了推理时间和成本。
消融研究:(1)示例对数量的影响:实验表明,随着示例对数量的增加,KB-BINDER的覆盖范围和EM分数均有所提高。(2)草稿数量的影响:增加草稿数量可以提高覆盖范围和EM分数,但也会增加推理时间和成本。(3)不同问题类型的性能:KB-BINDER在不同类型的问题(i.i.d.、组合型、零样本)上的表现较为稳定,而全训练模型在不同类型问题上的表现差异较大。
五. Conclusion
KB-BINDER为KBQA任务提供了一个强大的少样本学习框架,能够在低资源设置下实现与全训练模型相当的性能。
该框架通过生成-绑定方法和多数投票策略,有效地利用了LLMs的生成能力和知识库的信息。
KB-BINDER为未来KBQA研究提供了一个重要的基线,特别是在少样本和低资源场景下。
六. Limitation
对示例对的依赖:KB-BINDER的性能可能会因随机采样的示例对不同而有所变化,尤其是在少样本设置下。
生成逻辑形式的限制:KB-BINDER的性能受限于LLMs生成的初步逻辑形式草稿,这些草稿可能无法完全覆盖所有可能的逻辑结构。
推理时间和成本:增加示例对数量和草稿数量可以提高性能,但也会显著增加推理时间和计算成本。
转载本文请联系原作者获取授权,同时请注明本文来自胡宇航科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3623004-1492609.html?mobile=1
收藏