ChatGPT一小步,NLP范式转变一大步( 三 )


这个问题的答案就藏在两种曲线中:对数线性曲线和相变曲线 。如下图:
左图: 比例定律. 当模型大小呈指数增长时,相应的模型性能呈线性增长 。右图: 当模型尺寸达到一定规模时,会出现突现能力,让性能急剧增加 。
最初,()的研究者认为语言模型的性能与模型尺寸的关系可以通过对数线性曲线预测,即模型尺寸呈指数增长时,性能会随之线性增加 。这种现象被称为语言模型的缩放定律,正如等人在2020年[19]最初的GPT3文章[20]中讨论的那样 。
重要的是,在那个阶段,即便最大的 GPT-3 在有提示的情况下也不能胜过小模型精调 。所以当时并没有必要去使用昂贵的大模型(即使提示词的标注效率很高) 。
直到2021年,Cobbe 等人[21]发现缩放定律同样适用于精调 。这是一个有点悲观的发现,因为它意味着我们可能被锁定在模型规模上——虽然模型架构优化可能会在一定程度上提高模型性能,但效果仍会被锁定在一个区间内(对应模型规模),很难有更显著的突破 。
在缩放定律的掌控下(2020年到2021),由于GPT-3无法胜过精调 T5-11B,同时T5-11B微调已经很麻烦了,所以NLP社区的关注点更多的是研究更小的模型或者高效参数适应 。[22]就是提示和适应交叉的一个例子,后来由 He 等人在 2021[23]统一 。
当时的逻辑很简单:如果精调效果更好,我们就应该在高效参数适应上多下功夫;如果提示词的方法更好,我们应该在训练大型语言模型上投入更多精力 。
之后在 2022 年 1 月,思维链的工作被放出来了 。正如作者所展示的那样,思维链提示在性能-比例曲线中表现出明显的相变 。当模型尺寸足够大时,性能会显著提高并明显超越比例曲线 。
当使用思维链进行提示时,大模型在复杂推理上的表现明显优于微调,在知识推理上的表现也很有竞争力,并且分布鲁棒性也存在一定的潜力 。要达到这样的效果只需要8个左右的示例,这就是为什么范式可能会转变的原因 。
04、范式转变意味着什么?
范式转变究竟意味着什么?下面我们给出精调和提示词方法的对比:
提示词的好处很明显:我们不再需要繁琐的数据标注和在全量数据上进行精调,只需要编写提示词并获得满足要求的结果,这比精调要快很多 。
另外要注意的两点是:
上下文学习是监督学习吗?
上下文学习真的比监督学习效果要好吗?
a.如果假设是真的,那么一个值得研究的问题就是如何在不牺牲其上下文学习能力的情况下进行精调 。
b. 注意分布外精调的效果同样会随着模型尺寸变化 。比如 Yang 等人在2022年的工作中,第四张表就显示,Bart-based的分布外泛化能力会下降,但Bart-large则提升 。对于大模型,当测试集的分布和训练集相差不大时,同分布的精调效果也应该会提升 。
再回顾一下前文提到的逻辑:如果精调更好,我们应该努力研究如何进行参数高效的优化;如果提示词更好,我们应该努力去训练更好的大型语言模型 。
所以,尽管我们相信大型语言模型有巨大的潜力,仍然没有确凿的证据表明精调和提示词哪种方法更好,因此我们不确定范式是否真的应该转变、或应该转变到什么程度 。仔细比较这两种范式,使我们对未来有一个清晰的认识,是非常有意义的 。我们将更多讨论留到下一篇文章 。
05、模型应该多大才够?
两个数字:62B 和 175B 。
62B这个数字来自于 Chung 等人 2022 年工作的第五张表[24]:
对于所有小于62B的模型,直接用提示词都好于思维链 。第一个用思维链更好的模型是 Flan-cont-PaLM 62B 在BBH上的结果 。540B的模型使用思维链会在更多任务上得到好的效果,但也不是全部任务都好于精调 。