全面剖析OpenAI发布的GPT-4比其他GPT模型强在哪里( 二 )


3.3、复杂任务处理能力大幅提升
GPT-4 在更复杂、更细微的任务处理上,回答更可靠、更精准、更有创意 。这在多类考试测验中以及与其他 LLM 的比较中可以看出 。
3.4、幻觉、安全等局限性的改善
GPT-4 具有与早期 GPT 模型类似的限制 。最重要的是,它仍然不完全可靠(它“幻觉”事实并犯推理错误) 。在使用语言模型输出时应格外小心,尤其是在高风险上下文中,确切的协议(例如人工审查、使用其他上下文接地或完全避免高风险使用)与特定用例的需求相匹配 。
尽管仍然是一个真正的问题,但GPT-4显著减少了幻觉,相对于自上而下的模型(每次迭代都在改进) 。GPT-4的得分比我们最新的GPT-3.5高出40% 。
在九个类别的内部对抗性设计的事实评估中,GPT-4(绿色)与前三个版本进行了比较 。所有主题都有显著的收获 。准确度为 1.0 意味着模型的答案被判断为与人类对评估中所有问题的理想答案一致 。
在等外部基准测试方面取得了进展,该基准测试了模型将事实与一组敌对选择的错误陈述分开的能力 。这些问题与在统计上具有吸引力的事实不正确的答案配对 。
GPT-4 基本模型在此任务中仅比 GPT-3.5 略好;然而,之后RLHF训练后有很大的差距;GPT-4 拒绝选择常见的说法,但它仍然会错过微妙的细节 。
左:MMLU 子集上预训练的 GPT-4 模型的校准图 。模型对其预测的置信度与正确概率非常匹配 。虚线对角线代表完美的校准 。
右:同一 MMLU 子集上训练后的 PPO GPT-4 模型的校准图 。我们目前的流程对校准造成了相当大的伤害 。
3.6、风险和缓解措施改善更多安全特性
GPT-4从训练开始就努力包括选择和过滤训练前数据、评估和专家参与、模型安全改进以及监控和执行 。
GPT-4 带来的风险与以前的模型类似,例如生成有害建议、错误代码或不准确的信息 。
GPT-4 在 RLHF 训练期间包含一个额外的安全奖励信号,以减少有害输出,通过训练模型拒绝对此类内容的请求 。
与GPT-3.5相比,缓解措施大大改善了GPT-4的许多安全性能 。与GPT-3.5和GPT-4相比,减少了模型对不允许内容请求的响应率82%
回应敏感的要求(如医疗建议和自我伤害),符合我们的政策29%以上 。
与 GPT-3.5相比,缓解措施显著改善了 GPT-4 的许多安全特性 。与 GPT-3.5 相比,将模型响应不允许的内容请求的倾向降低了 82%,GPT-4 根据响应敏感请求(例如医疗建议和自残)的频率提高了 29% 。
总体而言,GPT-4模型级干预增加了引发不良行为的难度 。此外,仍然存在“越狱”来生成违反GPT-4使用指南 。
3.7、可预测的扩展
GPT-4 项目的一大重点是构建一个可预测的深度学习堆栈 。主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定于模型的调优是不可行的 。开发了基础设施和优化,这些基础设施和优化在多个规模上具有非常可预测的行为 。为了验证这种可扩展性,通过从使用相同方法训练但使用更少 4~10 倍计算的模型进行推断,提前准确地预测了 GPT-000 在内部代码库(不是训练集的一部分)上的最终损失:
四、与之前 GPT 系列模型比较五、和相比有更多的应用亮点
(1) 发布视频中,根据潦草的手绘制作类似布局类似的网页 。
(2)加入视觉模态后,可以扩充到的盲人应用(Be my eyes) 。
(3)强大的多语言能力帮助小语种语言的恢复、安全能力提升后的反欺诈等应用 。
六、总结
GPT-4强大的地方:
突破纯文字的模态,增加了图像模态的输入,具有强大的图像理解能力 。复杂任务处理能力大幅提升 。改善幻觉、安全等局限性 。建立LLM测试标准 。预测模型扩展性 。重新实现了整个深度学习栈,从头开始设计了一台超级计算机 。风格可控性 。支持更长的上下文窗口 。