详解一文看懂Transformer( 四 ) _编码

的输出，会经过一个线性层，在经过一个，输出概率来预测单词。
比如，最后得到的矩阵是[4,512],那么第一行中512个元素的概率，最大的那个假设是25，那么说明预测的第一个单词就是对应的词汇表25位置上的单词。
因为 Mask 的存在，使得单词 0 的输出 Z0 只包含单词 0 的信息
根据输出矩阵的每一行预测下一个单词
这也使得我们训练的时候，可以并行，我们一次就可以预测所有的单词。
我们可以直接使用最后一行的预测结果，与真实值做loss计算。

二 Transformer--论文理解：transformer 结构详解
MOS管工作原理的应用驱动电路详解
西游记中暗藏的玄机：真正看懂的人没几个
八方旅人地图详解八方旅人地图
朱元璋用一文钱逼死结拜兄弟沈万三
明清家具的艺术基石——材质
古文明霸王传职业古文明霸王传转职详解
古代四大才子之一文征明个人简介
全自动洗衣机离合器原理及维修教程详解
厂卫制度是什么样的制度？明朝厂卫制度详解

详解 一文看懂Transformer( 四 )

详解一文看懂Transformer( 四 )