科学网-2025.06.30-2025.07.06日周报-胡宇航的博文

切换到桌面版

2025.06.30-2025.07.06日周报

2025-7-6 19:29

阅读：762

阅读论文《Few-shot In-context Learning for Knowledge Base Question Answering》

一. Introduction

KBQA的重要性：知识库问答（KBQA）是人工智能领域的一个重要研究问题，它使得大规模知识库能够被非专业用户访问和使用，在帮助用户快速获取知识库中的信息方面具有重要作用。
KBQA面临的挑战：（1）数据密集性：大型知识库需要大量的标注数据来训练模型，以便模型能够在这些知识库上泛化良好（2）数据集特异性：对于较小规模的KBQA数据集，完全训练的模型往往会过拟合到特定的知识库结构，难以泛化到未见过的领域。（3）知识库模式的异构性：不同知识库之间的模式差异很大，这使得针对一个知识库训练的模型很难直接迁移到另一个知识库上。
现有方法的局限性：现有的KBQA方法大多依赖于语义解析（semantic parsing），即将自然语言问题映射到知识库上的逻辑形式- 这些方法虽然在大规模数据上表现出色，但需要大量的标注数据来微调模型，且难以在低资源和无训练设置下工作。
大语言模型的潜力：近年来，大语言模型（如GPT-3和Codex）在少样本和上下文学习方面表现出强大的泛化能力，这些模型能够在仅通过少量示例的情况下，完成多种自然语言处理任务，包括问答、信息抽取和数值推理等，然而，将LLMs应用于KBQA任务仍面临挑战，因为KBQA需要处理包含数百万节点和数十亿边的大型知识图谱，而这些图谱无法直接作为输入提供给语言模型。
本文提出的解决方案-KB-BINDER：（1）KB-BINDER框架：本文提出了KB-BINDER，一个首次实现KBQA任务的少样本上下文学习框架（2）生成草稿：KB-BINDER利用大语言模型生成问题的逻辑形式草稿。这些草稿是初步的逻辑形式，可能包含错误的实体和关系。（3）知识库绑定：通过知识库中的信息，将草稿中的实体和关系绑定到实际的可执行逻辑形式上。（4）实验结果：KB-BINDER在四个公共的异构KBQA数据集上表现出色，仅使用少量上下文示例就能达到与全训练模型相当甚至更好的性能。
KB-BINDER的意义：KB-BINDER提供了一个简单且通用的解决方案，能够在低资源设置下有效处理KBQA任务，该框架可以作为未来KBQA研究的重要基线，尤其是在资源有限的情况下。

二. Related Work

1. Knoweldge Base Question Answering（KBQA）：

（1）语义解析方法：大多数现有的KBQA模型基于语义解析技术，将自然语言问题映射到知识库上的逻辑形式。这些方法在处理大规模知识库时面临巨大的搜索空间挑战。

（2）数据密集性问题：传统KBQA方法需要大量标注数据来训练模型，以便模型能够在特定的知识库上泛化良好。这限制了它们在低资源场景下的应用。

（3）数据集特异性问题：许多KBQA模型在特定数据集上表现出色，但在未见过的领域或知识库上泛化能力较差。这表明现有方法对特定知识库结构的依赖性很强。

（4）少样本KBQA的挑战：少样本KBQA是一个尚未被充分探索的领域。现有方法通常需要数千个标注样本进行微调，而少样本设置下的KBQA被认为是非常困难的。

2. LLM在KGQA中的应用：

（1）LLMs的泛化能力：近年来，大语言模型在少样本和上下文学习方面表现出色，能够在多种自然语言处理任务中实现强大的泛化能力。

（2）LLMs在KBQA中的挑战：尽管LLMs在其他任务中表现出色，但直接将它们应用于KBQA任务面临挑战。KBQA需要处理大规模知识图谱，而这些图谱无法直接作为输入提供给语言模型。

（3）相关工作：一些研究尝试利用LLMs的生成能力来解决KBQA任务，但这些方法通常需要大量的标注数据来训练模型，或者依赖于特定知识库的启发式规则。

3. 上下文学习：

（1）定义：上下文学习是指通过在prompt中提供少量示例来指导语言模型完成特定任务。这种方法在少样本学习中表现出色。

（2）应用：上下文学习已被成功应用于多种自然语言处理任务，如问答、信息抽取和数值推理等。

（3）机制：一些研究分析了上下文学习的机制，发现通过提供输入-输出对的示例，可以显著提高语言模型的性能。

4. LLM的推理能力：

（1）推理方法的改进：一些研究通过引入中间步骤（如链式推理）来提高LLMs的推理能力。

（2）程序合成方法：最近的研究表明，通过合成形式化的程序来解决任务可以进一步提高LLMs的推理能力。

（3）相关工作：Binder方法通过将LLMs生成的SQL命令与数据库结合，展示了LLMs在问答任务中的潜力。然而，KBQA任务中的知识库规模更大，关系更复杂，需要更有效的绑定方法。

5. KB-BINDER的创新点：

（1）生成-绑定方法：KB-BINDER首次提出了一种生成-绑定方法，利用LLMs生成初步逻辑形式草稿，并通过知识库绑定生成可执行的逻辑形式。

（2）少样本学习：KB-BINDER是第一个真正实现少样本学习的KBQA框架，能够在仅通过少量示例的情况下达到与全训练模型相当的性能。

（3）通用性和低资源设置：KB-BINDER不依赖于特定知识库的启发式规则，具有很强的通用性，适用于低资源设置。

三. Method

框架概述： KB-BINDER是一个少样本上下文学习框架，用于知识库问答任务，该框架包含两个主要阶段：生成草稿（Draft Generation）和知识库绑定（Knowledge Base Binding），目标是利用大语言模型的生成能力，结合知识库的信息，生成可执行的逻辑形式，从而回答问题。
Draft Generation：（1）利用LLMs生成逻辑形式草稿：KB-BINDER使用Codex等大语言模型，通过上下文学习生成问题的初步逻辑形式（草稿）。（2）示例对的选择：从训练集中随机选择N个示例对（问题及其对应的逻辑形式），展示给LLM作为生成草稿的参考。（3）处理MIDs（机器标识符）：将原始逻辑形式中的MIDs替换为实体的表面名称，以便LLM更好地理解和模仿逻辑形式。（4）生成的草稿特点：生成的草稿是初步的逻辑形式，可能包含错误的实体和关系，但能够揭示问题中实体之间的语义和结构关系。
Knowledge Base Binding：（1）实体绑定：从草稿中提取问题中提到的实体表面名称；如果这些名称与知识库中的实体友好名称（friendly names）匹配，则选择最流行的实体作为候选；如果没有匹配，则使用BM25算法检索最相似的实体；如果草稿中包含多个实体表面名称，则独立绑定它们的潜在实体，并考虑它们的所有排列组合。（2）关系绑定：假设草稿中生成的初步关系格式和语义与真实存在的关系类似；使用BM25算法检索与草稿中关系最相似的知识库关系；为了提高逻辑形式的可执行性，仅保留从当前实体排列的2跳范围内检索到的关系；对于每个实体排列组合，迭代所有检索到的关系候选。（3）多数投票：一个草稿可能绑定到多个潜在的逻辑形式候选；每个候选逻辑形式可以转换为SPARQL查询并执行，以获取答案；通过重复执行K次（K为草稿数量），并采用多数投票策略，选择最一致的答案及其逻辑形式。

四. Experiment

数据集：GrailQA、WebQSP、GraphQA、MetaQA
实现细节：使用OpenAI的code-davinci-002 API生成草稿，测试K=1和K=6的情况（分别表示使用1个和6个草稿进行多数投票）；对于每个数据集，随机采样N个示例对作为上下文学习的参考；在绑定步骤中，设置实体绑定的候选数量n=15，关系绑定的候选数量m=10（GrailQA、WebQSP和GraphQA）或m=1（MetaQA）；使用BM25和Contriever作为混合搜索器，检索未匹配的友好名称和关系候选；将绑定后的逻辑形式转换为SPARQL查询，并在Virtuoso服务器上执行。
主要结果：（1）GrailQA：KB-BINDER(6) 在40-shot设置下达到了50.6的EM分数，与BERT+Ranking（全训练模型）相当；KB-BINDER(6)-R进一步提升了性能，EM分数达到53.2。（2）WebQSP：KB-BINDER(6)-R在100-shot设置下达到了74.4%的F1分数，与全训练模型DecAF相当。（3）GraphQA：KB-BINDER(1)和KB-BINDER(6)在100-shot设置下分别达到了39.3和39.5的F1分数，超过了之前的最佳模型7.7个百分点。（4）MetaQA：KB-BINDER(1)在5-shot设置下在2-hop和3-hop任务上分别达到了99.6%和96.4%的Hits@1分数，与之前的最佳模型相当；KB-BINDER(1)-R在3-hop任务上达到了99.5%的Hits@1分数，创下了新的最佳性能。
实验分析：（1）少样本性能：KB-BINDER在少样本设置下表现出色，尤其是在GraphQA和MetaQA数据集上，甚至超过了全训练模型。（2）KB-BINDER-R的优势：KB-BINDER-R通过检索与目标问题最相似的示例对，进一步提升了性能，尤其是在WebQSP数据集上。（3）泛化能力：KB-BINDER在组合型和零样本问题上的表现优于现有的全训练模型，表明其具有更强的泛化能力。（4）性能提升因素：增加示例对的数量和草稿的数量可以提升KB-BINDER的性能，但也增加了推理时间和成本。
消融研究：（1）示例对数量的影响：实验表明，随着示例对数量的增加，KB-BINDER的覆盖范围和EM分数均有所提高。（2）草稿数量的影响：增加草稿数量可以提高覆盖范围和EM分数，但也会增加推理时间和成本。（3）不同问题类型的性能：KB-BINDER在不同类型的问题（i.i.d.、组合型、零样本）上的表现较为稳定，而全训练模型在不同类型问题上的表现差异较大。

五. Conclusion

KB-BINDER为KBQA任务提供了一个强大的少样本学习框架，能够在低资源设置下实现与全训练模型相当的性能。
该框架通过生成-绑定方法和多数投票策略，有效地利用了LLMs的生成能力和知识库的信息。
KB-BINDER为未来KBQA研究提供了一个重要的基线，特别是在少样本和低资源场景下。

六. Limitation

对示例对的依赖：KB-BINDER的性能可能会因随机采样的示例对不同而有所变化，尤其是在少样本设置下。
生成逻辑形式的限制：KB-BINDER的性能受限于LLMs生成的初步逻辑形式草稿，这些草稿可能无法完全覆盖所有可能的逻辑结构。
推理时间和成本：增加示例对数量和草稿数量可以提高性能，但也会显著增加推理时间和计算成本。

转载本文请联系原作者获取授权，同时请注明本文来自胡宇航科学网博客。

链接地址：https://wap.sciencenet.cn/blog-3623004-1492609.html?mobile=1

分享到:

当前推荐数：0

推荐到博客首页

网友评论0 条评论

该博文允许注册用户评论请点击登录