IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

统计与规则相结合的维吾尔语人名识别方法

已有 5015 次阅读 2017-6-9 17:36 |系统分类:博客资讯

命名实体识别作为自然语言处理(Natural LanguageProcessing,NLP)领域的一个基础任务,被广泛且成功地应用于信息抽取、信息检索、信息推荐和机器翻译等任务中。由于人名作为事件的主体,因此人名识别是命名实体识别任务的重要一项子任务


维吾尔语人名识别难点

1) 组成维吾尔语人名的单词数不固定.最少有一个单词组成, 最多有三个单词组成: adil (阿迪力), nur bekri (努尔⋅⋅白克力), ablajan awut ayup (阿不拉江⋅⋅阿吾提⋅⋅阿玉普).

2) 黏着性导致派生词.人名单词连接各种词缀产生新单词, 这将产生大量未登录人名, 导致数据稀疏问题.例如人名erkin (艾尔肯) 有几种形式: erkinning (艾尔肯的)、erkinge (对艾尔肯)、erkindek (像艾尔肯)、erkinni (把艾尔肯).

3) 人名单词无大小写区分.这导致人名单词跟普通词在词形上没有任何区别.

4) 存在二义性.由于没有大小写区分, 因此有二义性的人名跟不同词义的单词在词形上没有任何区别.如adil这单词有人名“阿迪力”和普通词“公平、公正”两种含义.存在二义性的人名直接影响人名识别效果.

5) 维吾尔文信息处理领域起步较晚, 因此可用资源缺少, 缺少效果较好的词性标注 (Part-of-speech tagging, POS tagging) 工具.

6) 现有的词干提取工具对人名词的切分效果较差.

识别方法

新疆大学艾斯卡尔·艾木都拉团队从新疆日报,《新疆大学学报》等学术杂志,小说等数据中筛选,并进行了标注。料包括已标注语料11257 句。其中,训练语料有10805 句(186885 个单词),测试语料有1650 句(21183 个单词),其中训练语料里有10359 个人名,测试语料里有2359 个人名。研究并实现了基于统计与规则相结合的维吾尔语人名识别。

从维吾尔语黏着性特点出发,从词干、音节、字符串三个角度对维吾尔语单词进行拆分,获得更小的语言单元,并把切分的新单元作为特征加入到条件随机场中,明显缓解了数据稀疏的影响,取得了比以单词为基本单元的人名识别方法更好的性能。

同时还从维吾尔语中汉族人名的特点出发,提出了基于规则的维吾语中汉族人名的识别方法,维吾尔语中汉族人名几乎是开放集. 又因为维吾尔语的黏着性特点, 在汉族人名后也接词缀. 因此建立汉族人名词典是不可行的, 所以把维吾尔语中的汉族人名单词切分成音节是必要的。 因为汉字拼音在维吾尔语书写中是有限集合, 所以本文根据姓氏字和人名字的拼音转换到维吾尔文, 建立了维吾尔语化的汉族姓氏音节库和汉族人名音节库。


实验结果

最终利用统计和规则相结合的方法进一步提高了识别的准确率,系统框架如图1所示。实验结果表明,该方法人名识别的准确率、召回率和F1 值分别达到了87.47%、89.12%和88.29%。本文的研究结果还可以用于其他的维吾尔语命名实体的识别以及相关的文本分类任务。


引用格式:塔什甫拉提·尼扎木丁, 汪昆, 艾斯卡尔·艾木都拉, 帕力旦·吐尔逊. 统计与规则相结合的维吾尔语人名识别方法. 自动化学报, 2017, 43(4): 653-664

链接:http://html.rhhz.net/ZDHXBZWB/html/2017-4-653.htm

作者简介:

塔什甫拉提·尼扎木丁 新疆大学信息科学与工程学院硕士研究生。主要研究方向为自然语言处理。

E-mail: tashifulati@163.com


汪昆 中国科学院自动化研究所助理研究员. 2013 年获得中国科学院自动化研究所模式识别与智能系统专业博士学位. 主要研究方向为自然语言处理.

E-mail: kunwang@nlpr.ia.ac.cn


艾斯卡尔·艾木都拉 新疆大学信息科学与工程学院教授。主要研究方向为自然语言处理。本文通信作者。

E-mail: askarhamdulla@gmail.com


帕力旦·吐尔逊新疆大学副教授. 2015年获得西北大学计算机系博士学位. 主要研究方向为自然语言处理.

E-mail: pldtrx@163.com




https://wap.sciencenet.cn/blog-3291369-1059912.html

上一篇:CiteScore权威发布:《自动化学报》(英文版)最新排名进入前26%
下一篇:目标鲁棒识别的抗旋转HDO局部特征描述
收藏 IP: 159.226.19.*| 热度|

1 张学文

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 06:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部