的输出,会经过一个线性层,在经过一个,输出概率来预测单词 。
比如,最后得到的矩阵是[4,512],那么第一行中512个元素的概率,最大的那个假设是25,那么说明预测的第一个单词就是对应的词汇表25位置上的单词 。
因为 Mask 的存在,使得单词 0 的输出 Z0 只包含单词 0 的信息
根据输出矩阵的每一行预测下一个单词
这也使得我们训练的时候,可以并行,我们一次就可以预测所有的单词 。
我们可以直接使用最后一行的预测结果,与真实值做loss计算 。
- 二 Transformer--论文理解:transformer 结构详解
- MOS管工作原理的应用驱动电路详解
- 西游记中暗藏的玄机:真正看懂的人没几个
- 八方旅人地图详解 八方旅人地图
- 朱元璋用一文钱逼死结拜兄弟沈万三
- 明清家具的艺术基石——材质
- 古文明霸王传职业 古文明霸王传转职详解
- 古代四大才子之一文征明个人简介
- 全自动洗衣机离合器原理及维修教程详解
- 厂卫制度是什么样的制度?明朝厂卫制度详解