对比 GPT,BERT是双向的 block连接;就像单向RNN和双向RNN的区别,此外GPT用的是的,BERT用的是的 。
对比ELMo,虽然都是“双向”,但目标函数其实是不同的 。
ELMo是分别以
和
作为目标函数,独立训练出两个然后拼接,而BERT则是以
作为目标函数训练LM 。
BERT中的由三种求和而成:
其中:
i)Token 是词向量,第一个单词是CLS标志,可以用于之后的分类任务 。
ii) 是用来区别两种句子,因为预训练不光做LM还要做以两个句子为输入的分类任务
iii) 和之前论文不一样,不是三角函数而是学习出来的
BERT Pre-
BERT Fine-
分类任务:对于-level的分类任务,BERT直接取第一个CLS token的state ,加一层权重后预测label probe:
其他预测任务需要进行一些调整,如下图:
BERT模型优缺点
优点:
BERT是截至2018年10月的最新state-of-the-art模型,通过预训练和微调(精调)横扫了11项NLP任务,这就 是其最大的优点了 。而且它还用的是,也就是相对RNN更加高效、能捕捉更长距离的依赖 。对比之前的预训练模型,BERT捕捉到的才是真正意义上的 信息 。
缺点:
【NLP迁移学习——迁移学习的概念与方法】BERT作者在文中主要提到的就是MLM预训练时的mask问题:
- 上 Unity3D塔防游戏开发——学习笔记
- VS2022迁移VS2019项目遇到的
- 学习笔记:MyBtaisPlus学习文档
- 机器学习——感知机学习方法
- 0基础初学者如何学习Kali渗透测试
- Unity3D The Blacksmith Demo部分内容学习
- 第五版 1 《数学模型》学习笔记 第1章 建立数学模型 第2章 初等模型
- 机器学习肝炎预测模型machine learning for hepatitis
- 二 从零学习游戏服务器开发 最后一战概况
- 六 Spring 源码学习扩展功能 上篇