快跑!传说中的GPT4真的来了!多模态,吊打旧版ChatGPT!( 二 )


为了了解这两种模型之间的区别,我们在各种基准测试中进行了测试,包括最初为人类设计的模拟考试 。我们通过使用最新的公开测试(在奥林匹克竞赛和 AP 自由回答问题的情况下)或购买 2022-2023 年版本的模拟考试来继续进行 。我们没有针对这些考试进行专门培训 。模型在训练期间看到了考试中的少数问题,但我们认为结果具有代表性——详情请参阅我们的技术报告 。
下面看一些能力展示(秀肌肉):
许多现有的 ML 基准测试都是用英语编写的 。为了初步了解其他语言的能力,我们使用 Azure (参见附录)将 MMLU 基准——一套涵盖 57 个主题的 14,000 个多项选择题——翻译成多种语言 。在测试的 26 种语言中的 24 种中,GPT-4 优于 GPT-3.5 和其他 LLM(、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言:
我们也在内部使用 GPT-4,对支持、销售、内容审核和编程等功能产生了巨大影响 。我们还使用它来帮助人类评估 AI 输出,开始我们对齐策略的第二阶段 。
视觉输入
GPT-4支持图文输入,这里单独展示一下,更多示例请前往官网体验 。
GPT-4 可以接受文本和图像提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务 。具体来说,它在给定由散布的文本和图像组成的输入的情况下生成文本输出(自然语言、代码等) 。在一系列领域——包括带有文本和照片的文档、图表或屏幕截图——GPT-4 展示了与纯文本输入类似的功能 。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少量镜头和思维链提示 。图像输入仍然是研究预览,不公开 。
我们通过在一套狭窄的标准学术视觉基准上对其进行评估来预览 GPT-4 的性能 。然而,这些数字并不能完全代表其能力范围,因为我们不断发现该模型能够处理的新的和令人兴奋的任务 。我们计划很快发布进一步的分析和评估数据,并彻底调查测试时间技术的影响 。
可操纵性
我们一直致力于我们关于定义 AI 行为的帖子中概述的计划的各个方面,包括可操纵性 。与具有固定冗长、语气和风格的经典个性不同,开发人员(以及很快的用户)现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 的风格和任务 。系统消息允许 API 用户在一定范围内显着定制他们的用户体验 。我们将在这里不断改进(特别是知道系统消息是“越狱”当前模型的最简单方法,即对边界的遵守并不完美),但我们鼓励您尝试一下并让我们知道您认为 。
限制
尽管功能强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性 。最重要的是,它仍然不完全可靠(它“幻觉”事实并出现推理错误) 。在使用语言模型输出时应格外小心,特别是在高风险上下文中,使用符合特定用例需求的确切协议(例如人工审查、附加上下文的基础或完全避免高风险使用) .
虽然仍然是一个真正的问题,但 GPT-4 相对于以前的模型(它们本身在每次迭代中都在改进)显着减少了幻觉 。在我们的内部对抗性真实性评估中,GPT-4 的得分比我们最新的 GPT-3.5 高 40%:
我们在等外部基准测试方面取得了进展,它测试了模型将事实与对抗性选择的一组错误陈述分开的能力 。这些问题与事实不正确的答案配对,这些答案在统计上很有吸引力 。
GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在RLHF后训练(应用与GPT-3.5相同的过程)之后,存在很大差距 。检查下面的一些例子,GPT-4 拒绝选择俗语(你不能教老狗新把戏),但它仍然会遗漏细微的细节(猫王不是演员的儿子) 。