博文

基于注意力机制的概念化句嵌入研究

已有 1397 次阅读 2023-2-20 17:16 |系统分类:博客资讯

引用本文

王亚珅, 黄河燕, 冯冲, 周强. 基于注意力机制的概念化句嵌入研究. 自动化学报, 2020, 46(7): 1390-1400. doi: 10.16383/j.aas.2018.c170295

WANG Ya-Shen, HUANG He-Yan, FENG Chong, ZHOU Qiang. Conceptual Sentence Embeddings Based on Attention Mechanism. ACTA AUTOMATICA SINICA, 2020, 46(7): 1390-1400. doi: 10.16383/j.aas.2018.c170295

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170295

关键词

句嵌入，短文本概念化，注意力机制，词嵌入，语义表达

摘要

大多数句嵌模型仅利用文本字面信息来完成句子向量化表示, 导致这些模型对普遍存在的一词多义现象缺乏甄别能力.为了增强句子的语义表达能力, 本文使用短文本概念化算法为语料库中的每个句子赋予相关概念, 然后学习概念化句嵌入(Conceptual sentence embedding, CSE).因此, 由于引入了概念信息, 这种语义表示比目前广泛使用的句嵌入模型更具表达能力.此外, 我们通过引入注意力机制进一步扩展概念化句嵌入模型, 使模型能够有区别地选择上下文语境中的相关词语以实现更高效的预测.本文通过文本分类和信息检索等语言理解任务来验证所提出的概念化句嵌入模型的性能, 实验结果证明本文所提出的模型性能优于其他句嵌入模型.

文章导读

很多自然语言处理任务都依赖于文本的定长向量表示.其中, 句子定长向量表示(又称"句嵌入")是很重要的.可能最常见的文本定长向量表示方法是词袋模型或者N-Gram词袋模型[1].但是这类模型面临严峻的数据稀疏性和高维度挑战, 并且无法对词语语义进行建模, 也损失了词语的距离和顺序信息.近来, 很多研究尝试使用深度神经网络(Deep neural network, DNN)来学习句子向量表示, 这类基于深度学习的方法达到了目前句嵌入研究的最好结果[2-4].尽管这类基于深度学习的研究取得不错的研究进展, 但是目前的句嵌入模型面临如下挑战: 1)大多数句嵌入模型只使用文本字面信息来表示句子, 导致这些模型对于普遍存在的"一词多义"现象缺乏甄别能力; 2)有研究尝试将句法结构或者主题建模引入句嵌入, 但是对于短文本, 由于缺乏足够的信号用于统计和推导, 所以无论是句法分析还是主题建模都无法在短文本上取得良好效果; 3)大多数句嵌入模型平等地处理句子中每个词语, 这种"一视同仁"的建模理念不符合人类阅读习惯和人类注意力机制; 4)设定上下文语境窗口大小比较困难.为了解决上述问题, 我们必须另辟蹊径、从有限的输入句子中捕获更多语义信号, 例如:概念(Concept).此外, 我们需要为不同的上下文词语赋予不同的注意力, 来增强真正对每次预测有帮助的词语的重要程度.

本文提出概念化句嵌入(Conceptual sentence embedding, CSE)模型.这是一个用于学习句子向量化表示的无监督框架:在创新性地引入概念信息基础之上, 学习得到的概念层面的句向量被用于预测上下文片段中的目标词或者语境词.本文是受近来基于深度学习的词嵌入研究的启发[3, 5].我们首先使用短文本概念化算法[6]获取句子的概念分布, 进而生成相应的概念向量; 随后, 句向量、语境词词向量以及该句的概念向量, 被平均来预测给定上下文片段中的目标词.所有句向量和词向量都是通过随机梯度方法和反向传播技术来训练得到的.

注意力机制能够实现不同数据形态之间的自动对齐, 能够有倾向性地重点关注某些对解决问题起最关键作用的数据元素, 在许多自然语言处理任务中获得较大认可[7-9].不难发现, 在我们的概念化句嵌入模型中, 在给定上下文片段中, 目标词的预测仅与窗口中的某些词有关, 而并非与窗口中所有词语有关.这与人类阅读习惯是一致的, 人类注意力机制会自动增强某些词语而相对忽略另一些词语, 相关研究表明词语类型(Word type)和惊异度(Surprisal)与人类阅读行为有直接关系[10-11].根据人类阅读行为, 本文使用注意力机制扩展概念化句嵌入模型, 使模型能够在预测目标词的时候, 根据词语类型和惊异度来有区别地对待上下文语境词.所以, 本文提出基于词语类型的注意力机制和基于惊异度的注意力机制等两种注意力机制.

总的来说, 概念化句嵌入的核心思想是:在引入概念信息和注意力机制后, 概念层面的句嵌入模型允许每个词语在不同概念下拥有不同的意义、拥有不同的嵌入形式.例如, 对于词语"apple", 在概念Food下可能指一个水果, 而在概念Information company下可能指一家IT公司.所以, 概念信息会有效提升句向量的语义甄别能力和表达能力.此外, 本文所提出模型的一个重要优势在于, 可以在无标注数据上完成自动训练, 且相较于已有模型标注成本和训练成本大幅降低; 另一大优势是该模型可以利用词语顺序信息, 这是目前很多句嵌入模型所欠缺的, 其效果类似于N-Gram词袋模型但是大大降低向量维度和存储开销.在文本分类任务和信息检索任务上的实验结果, 充分证明了这种概念层面句子向量化表示模型的性能.

本文内容安排如下:第1节总结国内外相关研究工作; 第2节为本文所涉及相关概念和研究任务进行形式化定义; 第3节详细介绍基于注意力机制的概念化句嵌入模型的相关研究细节; 第4节分析讨论实验及实验结果; 最后, 第5节总结全文.

图 1 CBOW模型和Skip-Gram模型

图 2 CSE-CBOW模型和CSE-SkipGram模型

图 3 aCSE-TYPE模型

通过引入概念信息, 本文所提出的概念化句嵌入模型能够保持和增强句向量的语义表达能力和甄别能力.在此基础上, 为了模拟人类阅读行为, 我们引入基于词语类型的注意力机制和基于惊异度的注意力机制, 来扩展上述概念化句嵌入模型, 允许模型有选择性地处理上下文窗口中的语境词语, 为对句子语义建模有帮助的语境词语赋予更高注意力值和重视程度, 进一步增强了句向量的表达能力.在实验中, 我们将所提出的基于注意力机制的概念化句嵌入模型与多种类型公认的基线系统进行比较.实验结果证明, 概念化句嵌入模型性能优于其他模型, 而且在短文本上具有良好的抗数据噪音和稀疏性能力.

作者简介

王亚珅

北京理工大学计算机学院博士研究生. 2012年获得北京理工大学计算机学院学士学位.主要研究方向为自然语言处理与社交网络分析. E-mail: yswang@bit.edu.cn

冯冲

北京理工大学计算机学院副研究员. 2005年获得中国科学技术大学博士学位.主要研究方向为信息抽取和情感分析. E-mail: fengchong@bit.edu.cn

周强

百度公司研发工程师. 2016年获得北京理工大学计算机学院硕士学位.主要研究方向为自然语言处理与社交网络分析. E-mail: qzhou@bit.edu.cn

黄河燕

北京理工大学计算机学院教授. 1989年获得中国科学院计算技术研究所博士学位.主要研究方向为自然语言处理和机器翻译.本文通信作者. E-mail: hhy63@bit.edu.cn

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3291369-1377135.html

上一篇：互补色小波颜色恒常性/白平衡方法
下一篇：基于θ-D方法的欠驱动TORA系统非线性最优控制

收藏 IP: 117.114.9.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于注意力机制的概念化句嵌入研究

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于注意力机制的概念化句嵌入研究

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)