详解 一文看懂Transformer( 四 )


的输出,会经过一个线性层,在经过一个,输出概率来预测单词 。
比如,最后得到的矩阵是[4,512],那么第一行中512个元素的概率,最大的那个假设是25,那么说明预测的第一个单词就是对应的词汇表25位置上的单词 。
因为 Mask 的存在,使得单词 0 的输出 Z0 只包含单词 0 的信息
根据输出矩阵的每一行预测下一个单词
这也使得我们训练的时候,可以并行,我们一次就可以预测所有的单词 。
我们可以直接使用最后一行的预测结果,与真实值做loss计算 。