NLP迁移学习——迁移学习的概念与方法( 四 ) _nlp

对比 GPT，BERT是双向的 block连接；就像单向RNN和双向RNN的区别，此外GPT用的是的，BERT用的是的。
对比ELMo，虽然都是“双向”，但目标函数其实是不同的。
ELMo是分别以
和
作为目标函数，独立训练出两个然后拼接，而BERT则是以
作为目标函数训练LM 。
BERT中的由三种求和而成：
其中：
i）Token 是词向量，第一个单词是CLS标志，可以用于之后的分类任务。
ii）是用来区别两种句子，因为预训练不光做LM还要做以两个句子为输入的分类任务
iii）和之前论文不一样，不是三角函数而是学习出来的
BERT Pre-
BERT Fine-
分类任务：对于-level的分类任务，BERT直接取第一个CLS token的state ，加一层权重后预测label probe：
其他预测任务需要进行一些调整，如下图：
BERT模型优缺点
优点：
BERT是截至2018年10月的最新state-of-the-art模型，通过预训练和微调（精调）横扫了11项NLP任务，这就是其最大的优点了。而且它还用的是，也就是相对RNN更加高效、能捕捉更长距离的依赖。对比之前的预训练模型，BERT捕捉到的才是真正意义上的信息。
缺点：
【NLP迁移学习——迁移学习的概念与方法】BERT作者在文中主要提到的就是MLM预训练时的mask问题：