wzlyulbs的个人博客分享 http://blog.sciencenet.cn/u/wzlyulbs

博文

BERT阅读笔记---BERT的模型在11个NLP任务上的提升从哪里来?

已有 4427 次阅读 2018-11-23 13:30 |个人分类:科研笔记|系统分类:科研笔记| BERT, NLP, 人工智能, google, 数据

BERT:源自Transformers的双向编码表示

BERT的模型在11个NLP任务上的提升从哪里来?

是从更大规模数据集来?从训练方案改进上来?还是从模型设计上来?

以模型:OpenAI GPT(和BERT差异最小,如下图)为比较对象,以SST-2任务作为主要比较平台,以论文为数据来源,看看能不能回答这个问题。

image.png

其实,当我看到下面一行话的时候,就比较怀疑BERT是因为更大规模的数据和训练方法才获得更好的表现。

 

image.png

BERT所用语料4.1倍于OpenAI GPT。

从下表可以看出,BERT优于OpenAI GPT 3.6%。

 

image.png


 

image.png

从上图可以看出,模型设计之重要设计:下个句子预测和双向掩码语言模型建模都去除,准确率掉了0.6%

 

image.png

从上图可以看出,模型结构的复杂程度对准确率影响比较大,论文下文还有关于训练步数对准确率的影响,其实都可以理解为找到一个合理拟合(接近全局最优点)的过程。在此,我们可以假设两个算法团队都寻找了最好的超参,都不存在过拟合或者欠拟合的情况。

综上,两个算法模型设计带来准确率的0.6%的差异,训练状态都是最好,没有带来准确率上的差异,那么剩下的准确率的差异3.6-0.6=3%差异只能是从数据的差异上来。

以上计算结果的数值绝对大小可能没有意义,但是也可看出来,两个模型最主要的提升是来自于数据量的提升而不是模型设计。

再看MNLI任务,二者的差异是:4.6%,模型和数据贡献值是2.3%,2.3%,模型贡献占50%。MNLI任务是判断上下两句是:蕴含,矛盾,没有关系三种的哪一种,模型设计之下句预测和双向掩码语言模型提升这个任务准确率是合理的。令人困惑的是,单独拿掉下句预测对准确率影响不大,一种可能的解释是这个设计要和双向掩码语言模型这个设计共同生效,才能发挥较大作用。

再看QNLI任务,二者的差异是:3%,而BERT值BASE版本(可以理解为欠拟合版本)的表现和OpenAI GPT表现,相差0.3%,也就是可以认为,模型设计贡献占10%,非常小,几乎一致。该任务是判断句子对的第二句是否包含第一句所问的答案,可以认为是词一级的问题,模型设计影响小是合理的。

结合三个任务,可以这么认为,数据量的成倍增加对模型准确率的提升是占主导的,是毋庸置疑的,对对任何NLP任务都适用的。而模型设计只对句子级的推断有帮助,对其他任务的帮助非常有限。

to be done:OpenAI APT模型和更简单模型对比。

当然从系统角度而言,有效就行,不论是因为理论牛还是因为设计好抑或是因为数据够多。




http://wap.sciencenet.cn/blog-3141079-1147791.html

上一篇:1644
下一篇:读杰夫•霍金斯的《人工智能的未来》

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-4-15 18:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部