快跑!传说中的GPT4真的来了!多模态,吊打旧版ChatGPT!( 三 )


该模型的输出可能存在各种偏差——我们在这些方面取得了进展,但还有更多工作要做 。根据我们最近的博客文章,我们的目标是让我们构建的 AI 系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内进行定制,并就这些范围应该是什么获得公众意见 。
GPT-4 普遍缺乏对绝大部分数据中断后(2021 年 9 月)发生的事件的了解,也没有从经验中吸取教训 。它有时会犯一些简单的推理错误,这些错误似乎与跨多个领域的能力不相称,或者在接受用户明显的虚假陈述时过于轻信 。有时它会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞 。
GPT-4 也可能自信地在其预测中犯错,在可能出错时不注意仔细检查工作 。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配) 。然而,通过我们目前的训练后过程,校准减少了 。
风险与缓解措施
我们一直在对 GPT-4 进行迭代,以使其从训练开始就更安全、更一致,工作包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监控和执行 。
GPT-4 会带来与之前模型类似的风险,例如生成有害建议、错误代码或不准确信息 。但是,GPT-4 的附加功能会带来新的风险面 。为了了解这些风险的程度,我们聘请了 50 多位来自 AI 对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试 。他们的发现特别使我们能够在需要专业知识进行评估的高风险领域测试模型行为 。这些专家的反馈和数据用于我们对模型的缓解和改进;例如,我们收集了额外的数据来提高 GPT-4 拒绝有关如何合成危险化学品的请求的能力 。
GPT-4 在 RLHF 训练期间加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出(如我们的使用指南所定义) 。奖励由 GPT-4 零样本分类器提供,该分类器根据安全相关提示判断安全边界和完成方式 。为了防止模型拒绝有效请求,我们从各种来源(例如,标记的生产数据、人类红队、模型生成的提示)收集了多样化的数据集,并在两者上应用安全奖励信号(具有正值或负值)允许和不允许的类别 。

快跑!传说中的GPT4真的来了!多模态,吊打旧版ChatGPT!

文章插图
与 GPT-3.5 相比,我们的缓解措施显着改善了 GPT-4 的许多安全特性 。与 GPT-3.5 相比,我们已将模型响应不允许内容请求的倾向降低了 82%,并且 GPT-4 根据我们的政策响应敏感请求(例如,医疗建议和自我伤害)的频率提高了 29% .
总的来说,我们的模型级干预增加了引发不良行为的难度,但这样做仍然是可能的 。此外,仍然存在生成违反我们使用指南的内容的“越狱”。随着人工智能系统“每个代币的风险”增加,在这些干预中实现极高的可靠性将变得至关重要;目前,重要的是用部署时安全技术(如监控滥用)来补充这些限制 。
GPT-4 和后续模型有可能以有益和有害的方式对社会产生重大影响 。我们正在与外部研究人员合作,以改进我们理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估 。我们很快将分享更多关于 GPT-4 和其他人工智能系统的潜在社会和经济影响的想法 。
训练过程
与以前的 GPT 模型一样,GPT-4 基础模型经过训练可以预测文档中的下一个单词,并且使用公开可用的数据(例如互联网数据)以及我们已获得许可的数据进行训练 。这些数据是网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样的意识形态和想法 。