追溯ChatGPT( 四 ) _能力模型

text--003 和在撰写本文时才发布不到一个月
不能通过API 被调用，所以想要在标准基准上测试它很麻烦
所以在这些模型之间的比较更多是基于研究社区的集体经验（统计上不是很严格）
不过，我们相信初步的描述性比较仍然可以揭示模型的机制。

文章插图
我们首先注意到以下 text--002，text--003 和之间的比较：
所有三个模型都经过指令微调
text--002 是一个经过监督学习指令微调 () 的模型
text--003 和是基于人类反馈的强化学习的指令微调 (withfrom HumanRLHF) 。这是它们之间最显着的区别
这意味着大多数新模型的行为都是 RLHF 的产物
那么让我们看看 RLHF 触发的能力：
详实的回应：text--003 的生成通常比 text--002长。的回应则更加冗长，以至于用户必须明确要求“用一句话回答我”，才能得到更加简洁的回答。这是 RLHF 的直接产物
公正的回应：通常对涉及多个实体利益的事件（例如政治事件）给出非常平衡的回答。这也是RLHF的产物
拒绝不当问题：这是内容过滤器和由 RLHF 触发的模型自身能力的结合，过滤器过滤掉一部分，然后模型再拒绝一部分
拒绝其知识范围之外的问题：例如，拒绝在2021 年 6 月之后发生的新事件（因为它没在这之后的数据上训练过
这是 RLHF 最神奇的部分，因为它使模型能够隐式地区分哪些问题在其知识范围内，哪些问题不在其知识范围内
有两件事情值得注意：
所有的能力都是模型本来就有的，而不是通过RLHF 注入的
RLHF 的作用是触发 / 解锁突现能力
这个论点主要来自于数据量大小的比较：因为与预训练的数据量相比，RLHF 占用的计算量 / 数据量要少得多
模型知道它不知道什么不是通过编写规则来实现的，而是通过RLHF解锁的。这是一个非常令人惊讶的发现，因为 RLHF 的最初目标是让模型生成复合人类期望的回答，这更多是让模型生成安全的句子，而不是让模型知道它不知道的内容。
幕后发生的事情可能是：
：通过牺牲上下文学习的能力换取建模对话历史的能力。这是一个基于经验的观测结果，因为似乎不像 text--003 那样受到上下文演示的强烈影响。
text--003：恢复了 text--002 所牺牲的上下文学习能力，提高零样本的能力。根据的论文，这是来自于强化学习调整阶段混入了语言建模的目标（而不是 RLHF 本身）。
我们可以得出结论：
语言生成能力 + 基础世界知识 + 上下文学习都是来自于预训练（）
存储大量知识的能力来自 1750 亿的参数量。
遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量（--beta)
执行复杂推理的能力很可能来自于代码训练（code--002）
生成中立、客观的能力、安全和翔实的答案来自与人类的对齐。具体来说：
如果是监督学习版，得到的模型是text--002
如果是强化学习版 (RLHF)，得到的模型是text--003
无论是有监督还是 RLHF，模型在很多任务的性能都无法超过 code--002，这种因为对齐而造成性能衰退的现象叫做对齐税。
对话能力也来自于 RLHF（），具体来说它牺牲了上下文学习的能力，来换取：
建模对话历史
增加对话信息量
拒绝模型知识范围之外的问题
GPT-3.5 目前不能做什么
虽然GPT-3.5是自然语言处理研究中的重要一步，但它并没有完全包含许多研究人员（包括 AI2）设想的所有理想属性
以下是GPT-3.5不具备的某些重要属性：
实时改写模型的信念：当模型表达对某事的信念时，如果该信念是错误的，我们可能很难纠正它：