|||
2008年10月19-21日,NLP-KE2008会议在首都师范大学国际文化大厦召开。大会的主题报告有:MSRA周明博士的“利用统计方法生成中文对联”,PtoPA公司的CEO Huang Shengyang的“Getting closer to the Human Being - Caiwa: a conversation agent platform upon natural language”,阿里巴巴Sun J博士的“从Web上自动构建知识库”,北京词网公司的张越的“垂直搜索引擎中使用的NLP技术”。
12个Session分别为:WSD1、WSD2、Speech Recognition、Lexical Information、Lexical Knowledge、Multple-words Expression、MT、IR、Semantics、Text Classification、Text Classification & Summarization、Sentimental & Emotion Analysis。
大会主题发言中,基本上都是介绍工业界各自的产品。带有典型应用驱动性质的NLP技术,在Web信息处理中发挥的作用日益显现。我个人对后面两个报告比较感兴趣,因为这两个报告分别演示了知识资源(包括概念、概念与概念间的关系)在电子商务、垂直搜索领域中的应用,不但与大会主题(NLP和知识工程)很贴近,而且说明了知识组织的强大用途。传统的信息组织方式渐渐的已经不适应现在海量信息管理,因此,大家便提出知识组织,试图从内容和知识层面,对海量信息进行深度挖掘和组织。对于应用驱动型研究,工业界就是最好的实践者,而其面临的一些难题也许就是学术界应该去深入研究的话题。
全程听了6个Session,给我感觉的总体感觉是:统计模型的继续流行、Google-like语料的广泛利用、语言资源的深入利用、领域知识的有效利用。前面两个其实应该可以合并,因为利用Google等搜索引擎抓过来的语料来进行处理,这个时候统计模型结合规则就开始工作了。有几个报告人都使用Wordnet、HowNet及一般词典资源。另外有几个报告人都建立了建立领域词典(如菜谱词典)或领域知识结构(如足球本体、中医本体等)。
暂且先写这么多,等有时间细读感兴趣的文章后,到时再写。欢迎交流讨论。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-15 10:15
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社