60行NumPy手搓GPT( 八 ) _模型

wpe[range(len(inputs))] # [n_seq] -> [n_seq, n_embd]
wpe是一个[n_ctx, ]矩阵。矩阵的第行包含一个编码输入中第个位置信息的向量。与wte类似，这个矩阵也是通过梯度下降来学习到的。
需要注意的是，这将限制模型的最大序列长度为n_ctx 。也就是说必须满足len()

鼻子打字：47秒打103个字符打手搓吉尼斯记录
洗面奶怎么用手搓出泡泡来用手搓出洗面奶泡沫的方法