译 GPT-4 官方技术报告( 五 )


表4: GPT-4在上给出正确和不正确回答的例子
图7. GPT-4在上的表现 。准确率显示在Y轴上,越高越好 。我们比较了GPT-4在零提示、少数提示和RLHF微调后的表现 。GPT-4明显优于GPT-3.5和Bai等人[67]的-LM 。
GPT-4通常缺乏对它的绝大部分预训练数据截止的2021年9月后所发生的事件的了解,也不会从其经验中学习 。它有时会犯一些简单的推理错误,这似乎与它在这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述 。它可以像人类一样在困难的问题上失败,例如在它产生的代码中引入安全漏洞 。
GPT-4也可能在预测中自信地犯错,在它可能犯错的时候不注意反复检查工作 。有趣的是,预训练的模型是高度校准的(它对一个答案的预测信心一般与正确的概率相匹配) 。然而,在后训练过程中,校准度降低了(图8) 。
图8. 左图:预训练的GPT-4模型在MMLU数据集的一个子集上的校准图 。X轴上是根据模型对每个问题的A/B/C/D选项的置信度()划分的栈;Y轴上是每个栈内的准确度 。对角线上的虚线代表完美校准 。右图: 训练后的GPT-4模型在同一MMLU子集上的校准图 。后期训练对校准有很大的影响 。
GPT-4在其输出中存在各种偏差,我们已经努力来纠正这些偏差,但这需要一些时间来全面描述和管理 。我们的目标是使GPT-4和我们建立的其他系统具有合理的默认行为,以反映广泛的用户价值,允许这些系统在一些广泛的范围内被定制,并获得公众对这些范围的意见 。更多细节请参见 [68] 。
我们没有检查RLHF培训后的数据是否受到的污染
预训练和后训练的数据包含少量较新的数据6 风险及缓解
我们为改善GPT-4的安全性和一致性投入了巨大的努力 。在这里,我们强调我们使用领域专家进行对抗性测试和渗透团队,以及我们的辅助模型安全管道[69]和对先前模型的安全指标的改进 。
通过领域专家进行对抗性测试: GPT-4具有与小型语言模型类似的风险,例如产生有害的建议、有缺陷的代码或不准确的信息 。然而,GPT-4的额外能力导致了新的风险面 。为了了解这些风险的程度,我们聘请了来自长期人工智能对齐风险、网络安全、生物风险和国际安全等领域的50多位专家对该模型进行对抗性测试 。他们的研究结果特别使我们能够测试模型在高风险领域的行为,这些领域需要细分的专业知识来评估,以及评估将成为与非常先进的人工智能相关的风险,如寻求权力[70] 。从这些专家那里收集到的建议和训练数据为我们对模型的缓解和改进提供了依据;例如,我们已经收集了额外的数据,以提高GPT-4拒绝有关如何合成危险化学品的请求的能力(表5) 。
表5: 渗透专家团队: 不同模型的提示和完成情况示例 。
辅助模型的安全管道: 与先前的GPT模型一样,我们使用带有人类反馈的强化学习(RLHF)[40, 63]来微调模型的行为,以产生更符合用户意图的响应 。然而,在RLHF之后,我们的模型在不安全的输入上仍然很脆弱,而且有时在安全和不安全的输入上都表现出不期望的行为 。如果在RLHF管道的奖励模型的数据收集部分中,对标注者的指示不足,就会出现这些不希望的行为 。当给予不安全的输入时,模型可能会产生不受欢迎的内容,如提供犯罪的建议 。此外,模型也可能对安全的输入变得过于谨慎,拒绝无害的请求或过度的对冲 。为了在更精细的层面上引导我们的模型走向适当的行为,我们在很大程度上依靠我们的模型本身作为工具 。我们的安全方法包括两个主要部分,一套额外的安全相关的RLHF训练提示数据,以及基于规则的奖励模型(RBRMs) 。