引用本文
万齐智, 万常选, 胡蓉, 刘德喜, 刘喜平, 廖国琼. 面向研究问题的深度学习事件抽取综述. 自动化学报, 2024, 50(11): 2079−2101 doi: 10.16383/j.aas.c230184
Wan Qi-Zhi, Wan Chang-Xuan, Hu Rong, Liu De-Xi, Liu Xi-Ping, Liao Guo-Qiong. Event extraction based on deep learning: A survey of research issue. Acta Automatica Sinica, 2024, 50(11): 2079−2101 doi: 10.16383/j.aas.c230184
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230184
关键词
事件抽取,研究问题,研究进展及解决方案,深度学习
摘要
事件抽取是一个历史悠久且极具挑战的研究任务, 近年来取得了大量优异成果. 由于事件抽取涉及的研究内容较多, 它们的目标和重心各不相同, 使得读者难以全面地了解事件抽取包含的研究任务、研究问题和未来热点趋势. 为此, 面向研究问题, 对基于深度学习的事件抽取研究成果进行整理. 首先, 界定事件相关概念, 论述事件抽取的研究任务, 明确各研究任务的目标, 再总结各任务上的代表性研究成果; 接着, 总结现有事件抽取成果主要致力于解决哪些方面研究问题, 分析为什么会存在这些问题, 分析为什么需要解决这些问题; 然后, 对各方面研究问题进行技术总结, 分析各自研究方案和研究推进过程; 最后, 讨论事件抽取的发展趋势.
文章导读
随着互联网技术的快速发展, 文本数据无处不在且来源非常广泛, 如微博、新闻、公告、评论等. 在数以亿计的数据中有效挖掘有价值知识, 显得十分关键. 事件作为知识表示的一种具体形式, 是某些事情在一定时间和地点的具体发生[1], 主要涵盖人物/组织、行为、时间和地点等信息, 能有效地反映真实社会的状况, 具有重要的意义, 目前在较多特定领域(如财经、生物、医疗、网络安全、图像、地理和法律等领域)均有研究[2−4].
根据事件类型是否给定, 可分为封闭域和开放域事件抽取2类. 对于事件抽取范围, 学者们着重解决语句级事件抽取[5−27], 也有旨在获取文档级事件的研究[28−36]. 为了解决标注数据不足问题, 学者们提出各种解决途径[11, 13, 22−24, 33, 37−45]. 此外, 由于不同领域和语言的特点存在差异, 也有相关研究[46−47] 致力于解决这些问题.
针对不同研究问题, 研究的着力点和对应贡献的侧重点不尽相同. 例如, 对领域问题, 学者们着重挖掘和利用不同领域数据的特点; 对训练语料不足问题, 学者们致力于开发自动增加数据或迁移学习方法. 因此, 不能简单地根据文献采用的模型方法, 将各种研究问题进行比较[48−50].
本文重点从事件抽取的研究任务及其发展、涉及的研究问题及解决方案出发, 对事件抽取进行回顾和总结, 主要贡献如下:
1)系统阐述了事件抽取包含的研究任务, 调查了各研究任务上现有的代表性研究成果, 并宏观分析了各任务的研究进展情况.
2)总结了事件抽取研究成果主要关注的研究问题, 并分析了为什么会存在这些问题, 以及为什么需要解决这些问题; 同时针对每个研究问题, 分类总结了解决该问题的研究方案和研究推进过程.
3)讨论了事件抽取的未来发展趋势, 并分析了成为趋势的原因.
本文结构如下: 第1节阐述事件抽取的研究任务及成果; 第2节总结归纳现有文献涉及的研究进展及解决方案; 第3节分析事件抽取未来发展趋势; 第4节为结束语.
图 1 事件识别及其要素抽取的任务框架
图 2 各任务上的代表性研究成果
图 3 语句级事件抽取的主要发展历程
本文对事件抽取的研究现状进行了较为全面的回顾和分析, 主要包括研究任务、研究问题和解决方案. 首先, 对事件抽取相关研究任务进行了详细阐述, 明确了每种任务的目标和常用的实现策略; 然后, 对各任务上的代表性研究成果进行了总结; 接着, 重点对近5年的研究问题和解决方案进展进行了分析, 通过比较同类研究问题下各研究间的关系, 展示了事件抽取的整体发展脉络; 最后, 对事件抽取未来的发展趋势进行了总结.
作者简介
万齐智
江西财经大学计算机与人工智能学院讲师. 主要研究方向为人工智能, 深度学习, 信息抽取, 自然语言处理和文本数据挖掘. E-mail: wanqizhi1006@163.com
万常选
江西财经大学计算机与人工智能学院教授. 主要研究方向为Web数据管理, 情感分析, 数据挖掘和信息检索. 本文通信作者. E-mail: wanchangxuan@263.net
胡蓉
江西财经大学计算机与人工智能学院博士研究生. 主要研究方向为信息抽取, 自然语言处理和大数据分析. E-mail: hurong2014@126.com
刘德喜
江西财经大学计算机与人工智能学院教授. 主要研究方向为自然语言处理, 信息检索. E-mail: dexi.liu@163.com
刘喜平
江西财经大学计算机与人工智能学院教授. 主要研究方向为信息检索, 数据挖掘. E-mail: liuxiping@jxufe.edu.cn
廖国琼
江西财经大学虚拟现实现代产业学院教授. 主要研究方向为数据库和数据挖掘. E-mail: liaoguoqiong@163.com
转载本文请联系原作者获取授权,同时请注明本文来自欧彦科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3291369-1463556.html?mobile=1
收藏