博文

ACL 2016 随性总结

已有 5942 次阅读 2016-9-24 16:23 |系统分类:科研笔记

A Simple Review of ACL 2016

Xien Liu
Tsinghua-iFlytek Joint Laboratory for Speech Technology, Beijing, China

September 17, 2016

1 基本情况

- Conference: 第54届ACL是在德国柏林的洪堡大学召开, Aug 7-12, 2016.

- Paper:

- submissions: 有效(被送审)稿件 long paper 825, short paper 463 ;

- acceptances:longpaper231(oral/poster=116/115)andshortpaper97(oral/poster=50/47);

- features: 从TACL期刊中遴选了25篇在ACL上做presentation;

- outstanding papers: 11 (9 long, 2 short);

- Tutorial:共8个主要涉及到多模学习、词义表示、短文本理解、机器翻译等:-

- Multimodal Learning and Reasoning

- NLP Approaches to Computational Argumentation

- Computer Aided Translation

- Semantic Representations of Word Senses and Concepts

- Neural Machine Translation

- Game Theory and Natural Language: Origin, Evolution and Processing- Understanding Short Texts

- MetaNet: Repository, Identification System, and Applications

- Session:共44 个sessions,主要涉及到机器翻译3个,问答2个, Parsing 4个, 词义表示相关的5个(Word Meaning 2个, Word Vectors 3个);

Comments:

1. 长文接受率有所上升:今年采取了先短文审稿后长文审稿的模式,避免了很大一部分先盲目投长文不中后再改投短文的论文,因此长文投稿质量有所上升,接受率也就有所上升;

2. tutorial 里面选择性串听了下 Semantic Representations of Word Senses and Con-cepts和Understanding Short Texts两个;

2.1) 第一个比较有点意思,大家都开始意识到 word2vec与pLSA(或LDA)之间存在一些内在关系,不过从tutorial看,仅仅将其归纳统一为context的描述,还是比较浅显感官的,缺乏有效可计算的描述模式(公式),未来几年学术界可能在这里会有一个突破,会有一个统一的描述框架出来;另外比较系统的介绍了word sense 的表示学习,由于词的多义性因此将word embedding细分去探讨word sense的embedding表示也是一个比较自然的想法和趋势,在今年的ACL中也有较多的体现;

2.2) Understanding Short Texts 这个tutorial跟我们的工作比较相关,我们的很多项目都是对话语音转写过来的文本(如移动客户、银行、保险等项目), 跟短文本面临着相同的困难,例如不遵从语法规范(句法解析那套基本没用),语言高度不规范,多义性等等;不过这个tutorial主要是对于已有的方法的总结介绍(1)借助外部知识库,语义词典来表示和理解短文本; 2)基于语料上的统计表示学习方法,如embedding等),这里并没有新的亮点提出;

3. 从Session的分布来看机器翻译、句法解析、词语义向量表示等依然是NLP里面关注较多的焦点;尤其是词语义向量表示这块,分了word meaning, word vector,word sense等细分讨论;

2 整体感受

- 自由开放的氛围: 虽然跟15年在北京的情况相比, 这次的承办地洪堡大学显得场地比较拥挤(poster还移到了外面的宾馆),多少有些不便;但是洪堡大学开放自由的校园以及静谧古朴优雅的环境,还有这次ACL完全开放自由式管理(不像15年那样门口搞几个站岗查证的),营造了一种学术讨论应有的环境和氛围,因此无疑这是一次非常棒的ACL举办;

- 应用性双刃剑:整体感觉是ACL高度偏向应用,几乎涉及到NLP各个主要方面问题;也正是因为其高度应用性,导致

1. ACL在top conference中恐怕是企业参与度最高的一个(Google deep mind, IBMWatson,Amazon, FaceBook, Microsoft Research等几乎都是重度参与和引领,在上面发表了大量的论文,发起相关的workshop讨论等等,这一点来看Iflytek作为语音语言理解为入口的人工智能公司,还有很大的潜力空间可以发挥),也是最能体现学术界和工业界合作协力发展的一个典范;

2. 同时可能也正是由于其高度focus应用性, 导致ACL跟NIPS,ICML,ICRL等比起来在方法的创新与讨论上很乏力,几乎没有让人眼前一亮很振奋的东西,也没有很深度的讨论的东西出来,当然他们本身的定位不同,级别也有差距;

3 NN + 外源知识

从去年参加的南大周志华老师他们组织的机器学习会议MAL2015和今年的ACL2016,以及近来学术界一些新的论文动态,可以很明显感觉到大家都已经逐步意识到纯粹的基于针对性样本的NN学习 Example-based Learning with NN 是有很大瓶颈的,跟人的学习模式有较大差别,并不足以解决像NLP这类信息具有开放性源的问题;由于自然语言本身具有继承和演化特性,任何一个封闭的语料所包含的信息量都不足以表达这个语料的文字所承载的信息,因此即使NN发挥到极致可以有效的学习出语料中所有有用信息,也依然无法完全对语料进行理解,需要借助外部知识源的补充。Example-basedLearning with NN + Knowledge的策略(模式)在NLP的发展中应该是一个必然的趋势;这里的Knowledge可以是middle level的语义词典、知识库、知识图谱等,也可以是更加抽象的人总结的逻辑或规则等。CMU的一篇OutstandingPaper:Harnessing DeepNeural Networks with Logic Rule就是一个范例,应该会带动加速大家在这方面的尝试与探索。

4 表示学习(Representation Learning)

今年新增的两个workshop都跟表示学习有关。一个是Deep Mind组织的专门针对NLP的表示学习 “1st workshop on Representation Learning for NLP”。由于是第一次专门组织针对NLP表示学习的讨论,Deep Mind的这个workshop主要还是集中于embedding相关的一些细分工作,e.g. ”A joint Model for word embedding and word morphology”, ”Learningword representations from multiple information sources” 等。

另外一个是Omer Levy组织的针对NLP表示学习评估的workshop”1st workshop on Eval-uating vector-space representations for NLP”. Omer Levy 近几年在embedding表示学习上做出了很出色的工作(e.g. 15年EMNLP上一篇best paper讨论了词的显示分布式表示与embedding隐式分布式表示;nips上发的一篇论文“Neural Word Embeddingas Implicit Matrix Factorization”重点讨论embedding的一些理论问题,与矩阵分解以及PMI之间的关系等),对embedding学习以及背后的相关理论等有非常深刻的把握。整个由embedding引起的向量表示学习的一些问题,例如 counting-based vs. predicting-based, explicit(embedding) vs. implicit 到底谁好谁坏在学术界以及从发表出来的论文看相互conflict,没有一个定论。 Omer Levy这次组织这么一个workshop估计是开始意识到现在对向量表示学习的评估过于简单粗暴。学到的向量可能包含了多个维度的信息,现在单一的应用性评估(例如直接用embedding向量求同义词),根本无法有效评估向量表示学习的真实性能,因此导致了各流派互相冲突的观点。发展评估方法将会极大的促进NLP的表示学习的研究往前快速推进。

从今年的ACL看,Embedding Learning依然很火,开始细分到word sense learning, wordmeaning, concept learning等细分领域; Embedding Learning严格说可能并不算”deep“,只是一个很浅层的学习,但是可能是迄今为止NLP里面最成功的一次无监督表示学习。从整个机器学习的历史看,从几十年前的svm年代,到前10年的稀疏表示学习(sparserepresentation learning),以及现在的deep learning, 整个脉络是一个从分类器转向表示学习的路线。ICRL(International Conference Representation Learning)会议的快速崛起(恐怕很快要取代NIPS成为最好的机器学习会议),Google brain,Deep Mind等研究单位对表示学习的重视和重度参与和引领,都预示着表示学习的重要性。