Transformer的详细深入理解( 四 )


的重点是 Self- 结构 , 其中用到的 Q, K, V矩阵通过输出进行线性变换得到 。
中 Multi-Head中有多个 Self- , 可以捕获单词之间多种维度上的相关系数score 。
侵联删 , 谢谢!