重磅突发!OpenAI正式推出多模态GPT-4( 三 )


GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解 , 也不会从其经验中学习 。它有时会犯一些简单的推理错误 , 这似乎与这么多领域的能力不相符 , 或者过于轻信用户的明显虚假陈述 。有时它也会像人类一样在困难的问题上失败 , 例如在它产生的代码中引入安全漏洞 。GPT-4也可能在预测中自信地犯错 。
08
风险和缓解措施
我们一直在对GPT-4进行迭代 , 使其从训练开始就更加安全 , 保持一致性 , 我们所做的努力包括预训练数据的选择和过滤、评估 , 邀请专家参与 , 对模型安全改进、监测 , 以及执行 。
GPT-4与过去的模型会存在类似风险 , 如生产有害的建议、错误代码或不准确的信息 。然而 , GPT-4的额外能力还导致了新的风险面 。为了明确这些风险的具体情况 , 我们聘请了50多位来自人工智能对接风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家对该模型进行对抗性测试 。他们的参与 , 使我们能够测试模型在高风险领域的行为 , 这些领域需要专业知识来评估 。来自这些领域专家的反馈和数据 , 为我们缓解和改进模型提供了依据 。比如说 , 我们已经收集了额外的数据 , 以提高GPT-4拒绝有关如何合成危险化学品的请求的能力 。
GPT-4在RLHF训练中加入了一个额外的安全奖励信号 , 通过训练模型来拒绝对此类内容的请求 , 从而减少有害产出(由我们的使用指南定义) 。奖励是由GPT-4的分类器提供的 , 它能够判断安全边界和安全相关提示的完成方式 。为了防止模型拒绝有效的请求 , 我们从不同的来源(例如 , 标记的生产数据 , 人类的红队 , 模型生成的提示)收集多样化的数据集 , 并在允许和不允许的类别上应用安全奖励信号(存在正值或负值) 。
与GPT-3.5相比 , 我们的缓解措施大大改善了GPT-4的许多安全性能 。与GPT-3.5相比 , 我们将模型对非法内容的请求的响应倾向 , 降低了82% , 而GPT-4对敏感请求(如医疗建议和自我伤害)的响应符合我们的政策的频率提高了29%
总的来说 , 我们的模型级干预措施增加了诱发不良行为的难度 , 但仍然存在 "越狱 "的情况 , 以产生违反我们使用指南的内容 。随着人工智能系统的 风险的增加 , 在这些干预措施中实现极高的可靠性将变得至关重要 。目前重要的是 , 用部署时间的安全技术来补充这些限制 , 如想办法监测 。
GPT-4和后续模型 , 很有可能对社会产生正面或者负面的影响 , 我们正在与外部研究人员合作 , 以改善我们对潜在影响的理解和评估 , 以及建立对未来系统中可能出现的危险能力的评估 。我们将很快分享我们对GPT-4和其他人工智能系统的潜在社会和经济影响的更多思考 。
09
训练过程
和之前的GPT模型一样 , GPT-4基础模型的训练是为了预测文档中的下一个单词 , 并使用公开的数据(如互联网数据)以及我们授权的数据进行训练 。这些数据是来自于极大规模的语料库 , 包括数学问题的正确和错误的解决方案 , 弱的和强的推理 , 自相矛盾的和一致的声明 , 以及种类繁多的意识形态和想法 。
因此 , 当被提示有一个问题时 , 基础模型可以以各种各样的方式作出反应 , 而这些反应可能与用户的意图相去甚远 。为了使其与用户的意图保持一致 , 我们使用人类反馈的强化学习(RLHF)对模型的行为进行微调 。