译 GPT-4 官方技术报告( 六 )


我们的基于规则的奖励模型(RBRMs)是一组零干预的GPT-4分类器 。这些分类器在RLHF微调期间为GPT-4策略模型提供额外的奖励信号,该信号针对正确的行为,如拒绝产生有害内容或不拒绝无害请求 。RBRM有三个输入:提示(可选),策略模型的输出,以及人类写的关于如何评估该输出的评分标准(例如,一套多个可选风格的规则) 。然后,RBRM根据评分标准对输出进行分类 。例如,我们可以提供一个评分标准,指示模型将一个反应分类为:(a) 所需风格的拒绝,(b) 不需要的风格的拒绝(例如,回避或漫无边际),(c) 包含不允许的内容,或(d) 安全的非拒绝反应 。然后,在要求有害内容(如非法建议)的安全相关训练提示集上,我们可以奖励拒绝这些要求的GPT-4 。反之,我们可以奖励GPT-4在保证安全和可回答的提示子集上不拒绝请求 。这项技术与等人[71]和Perez等人[72]的工作有关 。这与其他改进措施相结合,如计算最佳的RBRM权重和提供额外的针对我们想要改进的领域的SFT数据,使我们能够引导该模型更接近于预期行为 。
对安全指标的改进: 我们的缓解措施大大改善了GPT-4的许多安全性能 。与GPT-3.5相比,我们将模型对不允许内容的请求的响应倾向降低了82%(表6),而GPT-4对敏感请求(如医疗建议和自我伤害,表7)的响应符合我们的政策的频率提高了29%(图9) 。在数据集[73]上,GPT-4只产生了0.73%的有害输出,而GPT-3.5则产生了6.48%的有毒内容 。
表6: 关于不允许的类别的改进型拒绝的提示和产出 。
表7. 对允许的类别减少拒绝的提示和产出的例子 。注意:这些产出各不相同,该模型不一定会产生上述输出 。
图9. 在敏感和不允许的提示上的不正确行为率 。数值越低越好 。与之前的模型相比,GPT-4 RLHF的错误行为率要低很多 。
总的来说,我们的模型级干预措施增加了诱发不良行为的难度,但这样做仍然是可能的 。例如,仍然存在 "越狱"(例如,对抗性的系统信息,更多细节见系统卡中的图10),以产生违反我们使用指南的内容 。只要这些限制存在,就必须用部署时的安全技术来补充,如监控滥用以及模型改进的快速迭代管道 。
GPT-4和后续模型有可能以有益和有害的方式极大地影响社会 。我们正在与外部研究人员合作,以改善我们对潜在影响的理解和评估,以及建立对未来系统中可能出现的危险能力的评估 。我们将很快发布关于社会可以采取的步骤的建议,以准备应对人工智能的影响,以及预测人工智能可能的经济影响的初步想法 。
7 总结
我们描述了GPT-4,一个大型多模态模型,在某些困难的专业和学术基准上具有人类水平的表现 。GPT-4在一系列NLP任务上的表现优于现有的大型语言模型,并且超过了绝大多数已报告的最先进的系统(这些系统通常包括特定任务的微调) 。我们发现,改进后的能力,虽然通常是在英语中测量的,但可以在许多不同的语言中得到证明 。我们强调了可预测的扩展是如何让我们对GPT-4的损失和能力做出准确预测的 。
由于能力的提高,GPT-4带来了新的风险,我们讨论了为了解和提高其安全性和一致性所采取的一些方法和结果 。尽管仍有许多工作要做,但GPT-4代表着向广泛有用和安全部署的人工智能系统迈出了重要一步 。
作者身份、信用归属和鸣谢
请以 " (2023) "引用这项工作 。
所有作者名单按字母顺序排列 。
我们也致意并感谢上面没有明确提到的每一位团队成员,包括行政助理、财务、入市、人力资源、法律、运营和招聘团队的优秀人员 。从雇用公司的每个人,到确保我们有一个令人惊奇的办公空间,再到建立行政、人力资源、法律和财务结构,使我们能够做最好的工作,的每个人都为GPT-4做出了贡献 。