重磅突发！OpenAI正式推出多模态GPT-4( 四 ) _能力模型

注意，模型的能力似乎主要来自于预训练过程， RLHF并不能提高考试成绩（如果不主动努力，它实际上会降低考试成绩）。但是对模型的引导来自于训练后的过程,基础模型需要，甚至知道它应该回答问题。
10
可预测的扩展
GPT-4项目的一大重点是建立一个可预测扩展的深度学习栈。主要原因是，对于像GPT-4这样非常大的训练运行，做大量的特定模型调整是不可行的。我们对基础设施进行了开发和优化，在多种规模下都有非常可预测的行为。为了验证这种可扩展性，我们提前准确地预测了GPT-4在我们内部代码库（不属于训练集）中的最终损失，方法是通过使用相同的方法训练的模型进行推断，但使用的计算量要少10000倍。
我们认为，准确预测未来的机器学习能力是安全的一个重要部分，相对于其潜在的影响，它没有得到足够的重视（尽管我们已经被几个机构的努力所鼓舞）。我们正在扩大我们的努力，开发一些方法，为社会提供更好的指导，让人们了解对未来系统的期望，我们希望这成为该领域的一个共同目标。
【重磅突发！OpenAI正式推出多模态GPT-4】11
开放式人工智能评估
我们正在开源 Evals ，这是我们的软件框架，用于创建和运行评估GPT-4等模型的基准，同时逐个样本检查其性能。我们使用Evals来指导我们模型的开发（包括识别缺点和防止退步），我们的用户可以应用它来跟踪不同模型版本（现在将定期推出）和不断发展的产品集成的性能。例如，已经使用Evals来补充他们的人工评估，以衡量他们的GPT驱动的文档工具的准确性。
因为代码都是开源的， Evals支持编写新的类来实现自定义的评估逻辑。然而，根据我们自己的经验，许多基准都遵循一些 "模板 "中的一个，所以我们也包括了内部最有用的模板（包括一个 "模型分级Evals "的模板--我们发现GPT-4有令人惊讶的能力来检查自己的工作）。一般来说，建立一个新的评估的最有效方法是将这些模板中的一个实例化，并提供数据。我们很高兴看到其他人能用这些模板和Evals更广泛地建立什么。
我们希望Evals成为一个分享和众包基准的工具，最大限度地代表广泛的故障模式和困难任务。作为后续的例子，我们已经创建了一个逻辑谜题评估，其中包含GPT-4失败的十个提示。Evals也与实现现有的基准兼容；我们已经包括了几个实现学术基准的笔记本和一些整合CoQA（小的子集）的变化作为例子。
我们邀请大家使用Evals来测试我们的模型，并提交最有趣的例子。我们相信Evals将成为使用和建立在我们的模型之上的过程中不可或缺的一部分，我们欢迎直接贡献、问题和反馈。
12
Plus用户将在上获得有使用上限的GPT-4权限。我们将根据实际需求和系统性能调整确切的使用上限，但我们预计容量将受到严重限制（尽管我们将在接下来的几个月里扩大和优化）。
根据我们看到的流量模式，我们可能会为更高的GPT-4使用量引入一个新的订阅级别，我们也希望在某个时候提供一定数量的免费GPT-4查询，这样那些没有订阅的用户也可以尝试。
API
要获得GPT-4的API（使用与gpt-3.5-turbo相同的 API），请可以去的官方上注册。