追溯ChatGPT( 四 )


text--003 和在撰写本文时才发布不到一个月
不能通过API 被调用,所以想要在标准基准上测试它很麻烦
所以在这些模型之间的比较更多是基于研究社区的集体经验 (统计上不是很严格)
不过,我们相信初步的描述性比较仍然可以揭示模型的机制 。

追溯ChatGPT

文章插图
我们首先注意到以下 text--002,text--003 和之间的比较:
所有三个模型都经过指令微调
text--002 是一个经过监督学习指令微调 () 的模型
text--003 和是基于人类反馈的强化学习的指令微调 (withfrom HumanRLHF) 。这是它们之间最显着的区别
这意味着大多数新模型的行为都是 RLHF 的产物
那么让我们看看 RLHF 触发的能力:
详实的回应:text--003 的生成通常比 text--002长 。的回应则更加冗长,以至于用户必须明确要求“用一句话回答我”,才能得到更加简洁的回答 。这是 RLHF 的直接产物
公正的回应: 通常对涉及多个实体利益的事件(例如政治事件)给出非常平衡的回答 。这也是RLHF的产物
拒绝不当问题:这是内容过滤器和由 RLHF 触发的模型自身能力的结合,过滤器过滤掉一部分,然后模型再拒绝一部分
拒绝其知识范围之外的问题:例如,拒绝在2021 年 6 月之后发生的新事件(因为它没在这之后的数据上训练过
这是 RLHF 最神奇的部分,因为它使模型能够隐式地区分哪些问题在其知识范围内,哪些问题不在其知识范围内
有两件事情值得注意:
所有的能力都是模型本来就有的,而不是通过RLHF 注入的
RLHF 的作用是触发 / 解锁突现能力
这个论点主要来自于数据量大小的比较:因为与预训练的数据量相比,RLHF 占用的计算量 / 数据量要少得多
模型知道它不知道什么不是通过编写规则来实现的,而是通过RLHF解锁的 。这是一个非常令人惊讶的发现,因为 RLHF 的最初目标是让模型生成复合人类期望的回答,这更多是让模型生成安全的句子,而不是让模型知道它不知道的内容 。
幕后发生的事情可能是:
:通过牺牲上下文学习的能力换取建模对话历史的能力 。这是一个基于经验的观测结果,因为似乎不像 text--003 那样受到上下文演示的强烈影响 。
text--003:恢复了 text--002 所牺牲的上下文学习能力,提高零样本的能力 。根据的论文,这是来自于强化学习调整阶段混入了语言建模的目标(而不是 RLHF 本身) 。
我们可以得出结论:
语言生成能力 + 基础世界知识 + 上下文学习都是来自于预训练()
存储大量知识的能力来自 1750 亿的参数量 。
遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量(--beta)
执行复杂推理的能力很可能来自于代码训练(code--002)
生成中立、客观的能力、安全和翔实的答案来自与人类的对齐 。具体来说:
如果是监督学习版,得到的模型是text--002
如果是强化学习版 (RLHF),得到的模型是text--003
无论是有监督还是 RLHF,模型在很多任务的性能都无法超过 code--002,这种因为对齐而造成性能衰退的现象叫做对齐税 。
对话能力也来自于 RLHF(),具体来说它牺牲了上下文学习的能力,来换取:
建模对话历史
增加对话信息量
拒绝模型知识范围之外的问题
GPT-3.5 目前不能做什么
虽然GPT-3.5是自然语言处理研究中的重要一步,但它并没有完全包含许多研究人员(包括 AI2)设想的所有理想属性
以下是GPT-3.5不具备的某些重要属性:
实时改写模型的信念:当模型表达对某事的信念时,如果该信念是错误的,我们可能很难纠正它: