快跑！传说中的GPT4真的来了！多模态，吊打旧版ChatGPT!( 二 ) _模型

为了了解这两种模型之间的区别，我们在各种基准测试中进行了测试，包括最初为人类设计的模拟考试。我们通过使用最新的公开测试（在奥林匹克竞赛和 AP 自由回答问题的情况下）或购买 2022-2023 年版本的模拟考试来继续进行。我们没有针对这些考试进行专门培训。模型在训练期间看到了考试中的少数问题，但我们认为结果具有代表性——详情请参阅我们的技术报告。
下面看一些能力展示（秀肌肉）：
许多现有的 ML 基准测试都是用英语编写的。为了初步了解其他语言的能力，我们使用 Azure （参见附录）将 MMLU 基准——一套涵盖 57 个主题的 14,000 个多项选择题——翻译成多种语言。在测试的 26 种语言中的 24 种中，GPT-4 优于 GPT-3.5 和其他 LLM（、PaLM）的英语语言性能，包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言：
我们也在内部使用 GPT-4，对支持、销售、内容审核和编程等功能产生了巨大影响。我们还使用它来帮助人类评估 AI 输出，开始我们对齐策略的第二阶段。
视觉输入
GPT-4支持图文输入，这里单独展示一下，更多示例请前往官网体验。
GPT-4 可以接受文本和图像提示，这与纯文本设置并行，允许用户指定任何视觉或语言任务。具体来说，它在给定由散布的文本和图像组成的输入的情况下生成文本输出（自然语言、代码等）。在一系列领域——包括带有文本和照片的文档、图表或屏幕截图——GPT-4 展示了与纯文本输入类似的功能。此外，它还可以通过为纯文本语言模型开发的测试时间技术得到增强，包括少量镜头和思维链提示。图像输入仍然是研究预览，不公开。
我们通过在一套狭窄的标准学术视觉基准上对其进行评估来预览 GPT-4 的性能。然而，这些数字并不能完全代表其能力范围，因为我们不断发现该模型能够处理的新的和令人兴奋的任务。我们计划很快发布进一步的分析和评估数据，并彻底调查测试时间技术的影响。
可操纵性
我们一直致力于我们关于定义 AI 行为的帖子中概述的计划的各个方面，包括可操纵性。与具有固定冗长、语气和风格的经典个性不同，开发人员（以及很快的用户）现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 的风格和任务。系统消息允许 API 用户在一定范围内显着定制他们的用户体验。我们将在这里不断改进（特别是知道系统消息是“越狱”当前模型的最简单方法，即对边界的遵守并不完美），但我们鼓励您尝试一下并让我们知道您认为。
限制
尽管功能强大，但 GPT-4 与早期的 GPT 模型具有相似的局限性。最重要的是，它仍然不完全可靠（它“幻觉”事实并出现推理错误）。在使用语言模型输出时应格外小心，特别是在高风险上下文中，使用符合特定用例需求的确切协议（例如人工审查、附加上下文的基础或完全避免高风险使用） .
虽然仍然是一个真正的问题，但 GPT-4 相对于以前的模型（它们本身在每次迭代中都在改进）显着减少了幻觉。在我们的内部对抗性真实性评估中，GPT-4 的得分比我们最新的 GPT-3.5 高 40%：
我们在等外部基准测试方面取得了进展，它测试了模型将事实与对抗性选择的一组错误陈述分开的能力。这些问题与事实不正确的答案配对，这些答案在统计上很有吸引力。
GPT-4 基本模型在此任务上仅比 GPT-3.5 略好；然而，在RLHF后训练（应用与GPT-3.5相同的过程）之后，存在很大差距。检查下面的一些例子，GPT-4 拒绝选择俗语（你不能教老狗新把戏），但它仍然会遗漏细微的细节（猫王不是演员的儿子）。