博文

【语言学家妄论深度学习和AI，旨在 invite questions】

已有 3363 次阅读 2016-12-10 07:27 |个人分类:立委科普|系统分类:科研笔记| 神经网络, 深度学习, 两条路线

与董老师调侃AI泡沫，不过泡沫归泡沫，这次ai热让我们看清了几点：

第一是大数据里面有名堂不全是虚的。

第二是长远一点看 ai 和 nlp 在领域里可以解决实际问题
譬如我们做的客户情报产品虽然发现市场没有预想的那么大但价值是确认了

第三是深度神经是技术突破真东西虽然目前被神话了。至少在 nmt 中我们看到了以前达不到的质量。语音方面已经提升了整个产业的水平。

第四是 nlp 与大数据结合让我们看到很多可能。虽然并不是每一种可能都可以满足某种社会刚需但nlp大规模实用的大门已经开启就看谁的市场角度对路了。

有一位风头正健冲在世界最前沿的深度学习大牛好友，看了我最新的博文【如何自动识别同一个意思千变万化的表达】, 回说：李老师你还没有理解深度学习啊，深度学习做这件事儿（识别一个 statement 的千变万化的语言表达）其实比较简单。

我不懂深度学习，那是肯定的。说这件事儿很简单，我有点存疑。至少目前所有做 bots 和问答系统的人，都在 fight 这个挑战，不能说已经完美解决。当然，Siri 这类显示了在 apps 上的应用，令人印象深刻。

Anyway，我的回答是，我们属于同类，心态和世界观是一样的。手里有把得心应手的锤子，世界就变成了钉子。区别只是锤子的不同，我不懂你的锤子，你也未必使得了我的锤子。术业有专攻，隔锤如隔山。但我确认，我的锤子可以对付这个钉子。

咱们还是来个友谊赛吧，否则这个世界多么单调。

无监督学习除了 clustering 在某些特定场景可以得到应用外，基本还是 research 的探索性质吧，没人指望它能大规模应用。clustering 到 classification 还有不小的距离，总得有某种监督或人参与才靠谱吧。那天我说，学习界啥时把机器放到raw data 的语言大海里，机器就跟小孩一样学会了语言，那才是牛逼翻天了。否则的话，你有你的知识瓶颈（巨量带标数据），我有我的知识瓶颈（专家经验），谁的瓶颈更大难说着呢。

深度神经学习前，semi-supervised 的研究很热。至少从研究角度，那个领域是令人兴奋和期待的。说的是以最少的监督（种子啥的少量带标数据，或者人工的规则做引子），结合 raw data 去试图引导系统按照指定的方向做事儿。听上去在轨道上，至少不是所谓完全的无监督那种让人觉得不靠谱。还有就是白老师的语义计算主张，不必用带标数据，但要用丰富的词典信息，结合 raw data 做 parsing，也用到深度学习模型RNN啥的，听上去也是可行的。这是因为词典信息里面已经隐含了深入的人工监督（语言学知识和用法），各种 expectations 譬如 subcat，然后到大数据里面去定位。

微博上有人问除了图像和语音，文本NLP方面，深度学习有突破吗？我的记忆中，至少n月前，相当普遍有说，深度神经在文本遭遇瓶颈（by 看到瓶子有一半是空的人），或文本有待突破（by 看到瓶子有一半是满的人）。由于DL乐观主义流行加上全世界的CL牛人都憋足了劲儿地攻关努力，据说最近收到的答案是：文本也很突破了。

于是我正面反面各问了一下，拷贝于下，在此一并求教方家：

谁能给个神经在文本NLP中突破的清单就好了, 看 so far 到底哪些是真突破，哪些仍是瓶颈？先起个头，突破似乎表现在：

1 NMT，例如谷歌翻译，特别是中到英，的确突破性发展了（百度声称更早神经了，但翻译质量远不如谷歌NMT令人印象深刻，虽然在前神经时代，百度的中文方面的SMT比谷歌强）；

2 SyntaxNet 至少在新闻正规文本上，parsing 比前突破了，已经达到 94%，虽然离应用还远，虽然不是声称的世界第一

关于神经在文本NLP上的瓶颈也抛块砖：

1. 迄今的突破都是 supervised 的，倚赖的是 insatiable 的巨量带标数据：带标数据于是成为知识瓶颈；

2 对于众多领域和文体，神经系统基本没有适应性，除非假设有海量领域数据可以重新训练成功；

3 几乎所有 unsupervised 尝试都是研究性质，离应用还远；

4 模型庞大带来的costs：训练和运行对计算资源的高要求

5. 迄今的端对端系统的神经应用，未见用到语言结构或理解，隐含层里的葫芦据说人也解不透；

6. 貌似黑箱子，有说 debug 不易（统计模型黑箱子不易debug的毛病以前是公认的痛点，不过最近有深度学习大牛一再强调，这个箱子一点也不黑，debug 也容易，此瓶颈存疑）；

端对端除了 NMT，还有哪些投入大规模应用的文本处理系统？似乎还在探索中，成熟的不多。在IE和QA领域，不久应该会有某种突破，因为这两个领域的系统基本是端对端，只要somehow（人海战术？）得到了大量的带标数据，突破是可以期待的。不过，在这些方面，高明的规则系统已经有了很好很快的解决方案。不信，可以到时候拉出来遛遛。

【李白对话录之八：有语义落地直通车的parser才是核武器】

【谷歌NMT，见证奇迹的时刻】

【泥沙龙笔记：语法工程派与统计学习派的总结】

【新智元笔记：两条路线上的NLP数据制导】

《立委随笔：语言自动分析的两个路子》

Comparison of Pros and Cons of Two NLP Approaches

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://wap.sciencenet.cn/blog-362400-1019805.html

上一篇：【立委科普：如何自动识别同一个意思千变万化的表达？】
下一篇：【立委科普：如何自动区分同一批词表达的不同意义？】