wpe[range(len(inputs))] # [n_seq] -> [n_seq, n_embd]
wpe是一个[n_ctx, ]矩阵 。矩阵的第行包含一个编码输入中第个位置信息的向量 。与wte类似 , 这个矩阵也是通过梯度下降来学习到的 。
需要注意的是 , 这将限制模型的最大序列长度为n_ctx 。也就是说必须满足len()
wpe[range(len(inputs))] # [n_seq] -> [n_seq, n_embd]
wpe是一个[n_ctx, ]矩阵 。矩阵的第行包含一个编码输入中第个位置信息的向量 。与wte类似 , 这个矩阵也是通过梯度下降来学习到的 。
需要注意的是 , 这将限制模型的最大序列长度为n_ctx 。也就是说必须满足len()