章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒

博文

长尾真报告摘记:跨越语言障碍

已有 5477 次阅读 2008-11-12 20:46 |个人分类:同行交流|系统分类:科研笔记| 自然语言处理, 多语言信息处理

       日本国立国会图书馆馆长长尾真先生,于2008年11月8日在第8届中日自然语言处理共同促进会议上,作了题为“跨越语言障碍”的学术报告。对主要内容摘记如下:

一、 语言与语言学

1. 语言表达中所存在的规则,现在手工收集这些规则,已经达到了极限。(博主注:这就是针对海量数据情况下,为什么统计学习方法超过规则方法的原因,专家针对海量数据提取所有规则几乎是不可能的事情,所以现在的主流方向是统计学习方法,有时候结合一些规则效果还会有所提高。)

2. 通过对单词在句子、句子在文章里的出现情况进行分类,可以确定他们的含义。(博主注:我没有整明白这句话的确切含义,是不是通过单词或句子的语境,来理解单词或句子的含义呢?)

 二、语言资源建设

1.  多语言语料库建设:NICT(日本情报通信研究机构)正在收集中日平行语料库,他们的目标是收集1000万句对,目前已经收集了100万句对。

2. 语音语料库的应用:依靠语音语料库,日本国会的速记使用语音系统代替或辅助,并准备明年开始实施。(博主注:如果中文也能做得这么好,那么有名的“亚伟速录”是否会受到严重挑战?)

3. 语料库相关软件的建设:开发多语言、平行语料库的处理软件,建设语料库与词典并普及它们的应用。现在处理上亿单词的语料库,超级计算机可以在一两天就得到结果。

4. 语料库应该是中性的,可以用于各种用途。(博主注:语料库是中性的,这个问题不大,一般根据应用的不同,对语料库的标注是有侧重的,比如POS标注词性,而情感分析用标注,则标注带褒贬等情感极性的标记。)

 三、语言翻译

1. 构建实例库与词典: 通过分析可比语料库可以抽出“改写实例”(博主注:一般称为复述实例吧),利用词汇与短语的“复述”可以自动构建词典(博主注:这里的“词典”似乎是同义词词典或者主题词词典。)

2. 类义词典的自动构建:对包含同义词和上下位类关系的句子进行分析,从而构建类义词典;通过分析专业领域的文章,构建相应的术语词典以及概念词典,可以阐明改领域的知识结构。

3. 机器翻译的课题:多语言翻译、语言网格、机器翻译质量的提高、大规模翻译实例数据库建设。

 四、信息检索的课题

1.  信息的可靠性问题:推测信息的可靠性;人们对搜索到的信息可以相信到什么程度?通过与学术内容和事实相比较来推测信息的可靠性。

2. 危险信息的监测:可疑信息源的检测、相关信息的历时追踪、对某一时间点突然猛增的一系列相关信息进行及时扑捉。(博主注:这个就是舆情监测与分析需要去解决的问题,已经热了一阵子了)。

3. 抄袭文章与图片的检测:检测出由某个文件的某一部分与另一文件的某一部分相同或相似,检测出某一图片或漫画与另一图片或漫画的相似程度。(博主注:关于文档复制检测的研究比较多了,CNKI等公司就有类似的论文抄袭检测工具。但关于图片或漫画的抄袭检测研究和相关系统,我几乎没看过,难道是因为日本的漫画业太发达了,街头卖的抄袭作品太多,所以推动了学术界研究这个?  )。

4. 对话系统:广博的知识与报纸热门话题的积累(博主注:把百科知识和热门事件输入到电脑,让他们无所不知,就和一个陌生人刚到一个新城市一样,多看看这个城市的小报,很快就知道这个城市的一些特点了),对话情景信息的获取,推测对方所具有的知识(博主注:根据用户输入的查询式的专指度,有时能在一定程度上推测用户输入词语的专业程度,从而推测改用户是一般用户而是特殊用户),推测对方的意图。

 



https://wap.sciencenet.cn/blog-36782-46490.html

上一篇:长尾真报告摘记:数字图书馆的发展
下一篇:“下一代”图书馆目录(Next Generation Library Catalogs)[zz]
收藏 IP: .*| 热度|

1 李斌

发表评论 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-16 06:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部