重磅突发！OpenAI正式推出多模态GPT-4 _能力模型

大家好，今天这篇文章是我的好朋友阿法兔翻译的，她凌晨熬夜研究了一下推出的 GPT-4 ，基本把所有发布的内容重点都读完了，分享给大家，希望能给你一些启发。
作者 |&&
翻译 &分析| 阿法兔
01
亮点
*本文6000字左右
02
官宣文档
已经正式推出GPT-4 ，这也是在扩大深度学习方面的最新里程碑。GPT-4是大型的多模态模型（能够接受图像和文本类型的输入，给出文本输出），尽管GPT-4在许多现实世界的场景中能力不如人类，但它可以在各种专业和学术基准上，表现出近似人类水平的性能。
例如：GPT-4通过了模拟的律师考试，分数约为全部应试者的前10% 。而相比之下， GPT-3.5的分数大约是后10% 。我们团队花了6个月的时间，利用我对抗性测试项目以及基于的相关经验，反复对GPT-4进行调整。结果是， GPT-4在事实性（）、可引导性（）和拒绝超范围解答（非合规）问题（to goof .）方面取得了有史以来最好的结果（尽管它还不够完美）
在过去两年里，我们重构了整个深度学习堆栈，并与Azure合作，为工作负荷从头开始，共同设计了一台超级计算机。一年前，训练了GPT-3.5 ，作为整个系统的首次 "试运行" ，具体来说，我们发现并修复了一些错误，并改进了之前的理论基础。因此，我们的GPT-4训练、运行（自信地说：至少对我们来说是这样！）空前稳定，成为我们首个训练性能可以进行提前准确预测的大模型。随着我们继续专注于可靠扩展，中级目标是磨方法，以帮助能够持续提前预测未来，并且为未来做好准备，我们认为这一点，对安全至关重要。
我们正在通过和API（您可以加入）发布GPT-4的文本输入功能，为了能够更大范围地提供图像输入功能，我们正在与合作伙伴紧密合作，以形成一个不错的开端。我们计划开源 Evals ，也是我们自动评估AI模型性能的框架，任何人都可以提出我们模型中的不足之处，以帮助它的进一步的改进。
03
能力
在简单闲聊时，也许不太好发现GPT-3.5和GPT-4之间的区别。但是，当任务的复杂性达到足够的阈值时，它们的区别就出来了。具体来说， GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。
为了理解这两个模型之间的差异，我们在各种不同的基准上进行了测试，包括模拟最开始那些为人类设计的考试。通过使用最新的公开测试（就奥数和AP等等考试）还包括购买2022-2023年版的练习考试来进行，我们没有为这类考试给模型做专门的培训，当然，考试中存在很少的问题是模型在训练过程中存在的，但我们认为下列结果是有代表性的。
我们还在为机器学习模型设计的传统基准上，对GPT-4进行了评估。GPT-4大大超过现有的大语言模型，与多数最先进的（SOTA）模型并驾齐驱，这些模型包括针对基准的制作或额外的训练协议。
由于现有的大多数ML基准是用英语编写的，为了初步了解其他语言的能力，我们使用Azure 将MMLU基准：一套涵盖57个主题的14000个选择题，翻译成了各种语言。在测试的26种语言中的24种语言中， GPT-4的表现优于GPT-3.5和其他大模型（， PaLM）的英语表现，这种优秀表现还包括类似拉脱维亚语、威尔士语和斯瓦希里语等等。