Towards a Unified View of Parameter


A
这里发现,实际上是对原来的 作了一个线性插值 。将 的公式写成这个形式之后,和就很像了 。
这个时候 和的公式 高度相似 。且改写后的 公式中的和W_up也是低秩矩阵,秩为 在key和value前面加入的向量的数量 。
如果我们把公式以及计算流图放在一起对比,发现我们可以说 是一种形式的 。

Towards a Unified View of Parameter

文章插图
这就启发了作者去寻找一种统一的框架 。
于是作者又对比分析了, 和LoRA这三种的具体结构,从四个维度去对比不同设计 。
or
or FFN
是指这些设计是作用于的具体位置 。
Towards a Unified View of Parameter

文章插图
表示Δh和h如何结合 。
加ffn主要是增加非线性变换 的加权求和本质上只是线性变换 。
对于,作者对比了加在上和加在feed 上的效果,并发现总体来说,加在feed 上效果更好 。
Multi-head orhead
理论上,多头的结构应该比单头好,但是这里的 (多头结构)并没有比PA (单头的 )好 。于是作者猜想,是否在参数很少的情况下,多头的优势才体现出来?
由此可以引出结论:当只想改动少量参数时,用multi-head结构; 当可以调整较大数目参数的时候,可以用ffn结构 。
【Towards a Unified View of Parameter】总结