重磅突发!OpenAI正式推出多模态GPT-4

大家好 , 今天这篇文章是我的好朋友阿法兔翻译的 , 她凌晨熬夜研究了一下推出的 GPT-4 , 基本把所有发布的内容重点都读完了 , 分享给大家 , 希望能给你一些启发 。
作者 |&&
翻译 &分析| 阿法兔
01
亮点
*本文6000字左右
02
官宣文档
已经正式推出GPT-4 , 这也是在扩大深度学习方面的最新里程碑 。GPT-4是大型的多模态模型(能够接受图像和文本类型的输入 , 给出文本输出) , 尽管GPT-4在许多现实世界的场景中能力不如人类 , 但它可以在各种专业和学术基准上 , 表现出近似人类水平的性能 。
例如:GPT-4通过了模拟的律师考试 , 分数约为全部应试者的前10% 。而相比之下 , GPT-3.5的分数大约是后10% 。我们团队花了6个月的时间 , 利用我对抗性测试项目以及基于的相关经验 , 反复对GPT-4进行调整 。结果是 , GPT-4在事实性()、可引导性()和拒绝超范围解答(非合规)问题(to goof .)方面取得了有史以来最好的结果(尽管它还不够完美)
在过去两年里 , 我们重构了整个深度学习堆栈 , 并与Azure合作 , 为工作负荷从头开始 , 共同设计了一台超级计算机 。一年前 , 训练了GPT-3.5 , 作为整个系统的首次 "试运行" , 具体来说 , 我们发现并修复了一些错误 , 并改进了之前的理论基础 。因此 , 我们的GPT-4训练、运行(自信地说:至少对我们来说是这样!)空前稳定 , 成为我们首个训练性能可以进行提前准确预测的大模型 。随着我们继续专注于可靠扩展 , 中级目标是磨方法 , 以帮助能够持续提前预测未来 , 并且为未来做好准备 , 我们认为这一点 , 对安全至关重要 。
我们正在通过和API(您可以加入)发布GPT-4的文本输入功能 , 为了能够更大范围地提供图像输入功能 , 我们正在与合作伙伴紧密合作 , 以形成一个不错的开端 。我们计划开源 Evals , 也是我们自动评估AI模型性能的框架 , 任何人都可以提出我们模型中的不足之处 , 以帮助它的进一步的改进 。
03
能力
在简单闲聊时 , 也许不太好发现GPT-3.5和GPT-4之间的区别 。但是 , 当任务的复杂性达到足够的阈值时 , 它们的区别就出来了 。具体来说 , GPT-4比GPT-3.5更可靠 , 更有创造力 , 能够处理更细微的指令 。
为了理解这两个模型之间的差异 , 我们在各种不同的基准上进行了测试 , 包括模拟最开始那些为人类设计的考试 。通过使用最新的公开测试(就奥数和AP等等考试)还包括购买2022-2023年版的练习考试来进行 , 我们没有为这类考试给模型做专门的培训 , 当然 , 考试中存在很少的问题是模型在训练过程中存在的 , 但我们认为下列结果是有代表性的 。
我们还在为机器学习模型设计的传统基准上 , 对GPT-4进行了评估 。GPT-4大大超过现有的大语言模型 , 与多数最先进的(SOTA)模型并驾齐驱 , 这些模型包括针对基准的制作或额外的训练协议 。
由于现有的大多数ML基准是用英语编写的 , 为了初步了解其他语言的能力 , 我们使用Azure 将MMLU基准:一套涵盖57个主题的14000个选择题 , 翻译成了各种语言 。在测试的26种语言中的24种语言中 , GPT-4的表现优于GPT-3.5和其他大模型( , PaLM)的英语表现 , 这种优秀表现还包括类似拉脱维亚语、威尔士语和斯瓦希里语等等 。