NLP迁移学习——迁移学习的概念与方法( 四 )


对比 GPT,BERT是双向的 block连接;就像单向RNN和双向RNN的区别,此外GPT用的是的,BERT用的是的 。
对比ELMo,虽然都是“双向”,但目标函数其实是不同的 。
ELMo是分别以

作为目标函数,独立训练出两个然后拼接,而BERT则是以
作为目标函数训练LM 。
BERT中的由三种求和而成:
其中:
i)Token 是词向量,第一个单词是CLS标志,可以用于之后的分类任务 。
ii) 是用来区别两种句子,因为预训练不光做LM还要做以两个句子为输入的分类任务
iii) 和之前论文不一样,不是三角函数而是学习出来的
BERT Pre-
BERT Fine-
分类任务:对于-level的分类任务,BERT直接取第一个CLS token的state ,加一层权重后预测label probe:
其他预测任务需要进行一些调整,如下图:
BERT模型优缺点
优点:
BERT是截至2018年10月的最新state-of-the-art模型,通过预训练和微调(精调)横扫了11项NLP任务,这就 是其最大的优点了 。而且它还用的是,也就是相对RNN更加高效、能捕捉更长距离的依赖 。对比之前的预训练模型,BERT捕捉到的才是真正意义上的 信息 。
缺点:
【NLP迁移学习——迁移学习的概念与方法】BERT作者在文中主要提到的就是MLM预训练时的mask问题: