快跑！传说中的GPT4真的来了！多模态，吊打旧版ChatGPT!( 四 ) _模型

因此，当出现问题提示时，基本模型可以以多种可能与用户意图相去甚远的方式做出响应。为了使其与护栏内的用户意图保持一致，我们使用强化学习和人工反馈 ( RLHF)来微调模型的行为。
请注意，该模型的能力似乎主要来自预训练过程——RLHF 不会提高考试成绩（如果不积极努力，它实际上会降低考试成绩）。但是模型的控制来自训练后过程——基础模型需要及时的工程设计甚至知道它应该回答问题。
可预测的扩展
GPT-4 项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是，对于像 GPT-4 这样的非常大的训练运行，进行广泛的特定于模型的调整是不可行的。我们开发的基础设施和优化在多个尺度上具有非常可预测的行为。为了验证这种可扩展性，我们通过从使用相同方法训练但使用 10,000 倍更少计算的模型进行推断，准确预测了 GPT-4 在我们内部代码库（不是训练集的一部分）上的最终损失：
现在我们可以准确地预测我们在训练期间优化的指标（损失），我们开始开发方法来预测更多可解释的指标。例如，我们成功预测了数据集子集的通过率，从计算量减少 1,000 倍的模型推断：
有些能力仍然难以预测。例如，Prize 是一项竞赛，目的是寻找随着模型计算量的增加而变得更糟的指标，而后见之明的忽视是获胜者之一。就像最近的另一个结果一样，GPT-4 扭转了趋势：
我们认为，准确预测未来的机器学习能力是安全的重要组成部分，但相对于其潜在影响而言，它并没有得到足够的重视（尽管我们受到了多个机构的努力的鼓舞）。我们正在加大力度开发方法，为社会提供更好的未来系统预期指导，我们希望这成为该领域的共同目标。
评估
我们正在开源 Evals，这是我们的软件框架，用于创建和运行基准测试以评估 GPT-4 等模型，同时逐个样本地检查它们的性能。我们使用 Evals 来指导我们模型的开发（识别缺点和防止回归），我们的用户可以应用它来跟踪模型版本（现在将定期发布）的性能和不断发展的产品集成。例如，使用 Evals 来补充他们的人工评估，以衡量其基于 GPT 的文档工具的准确性。
由于代码全部开源，Evals 支持编写新的类来实现自定义评估逻辑。然而，根据我们自己的经验，许多基准测试都遵循少数“模板”之一，因此我们还包括了内部最有用的模板（包括“模型分级评估”模板——我们发现 GPT- 4 令人惊讶地能够检查自己的工作）。通常，构建新评估的最有效方法是实例化这些模板之一并提供数据。我们很高兴看到其他人可以使用这些模板和更普遍的 Evals 构建什么。
我们希望 Evals 成为共享和众包基准测试的工具，代表最广泛的故障模式和困难任务。作为要遵循的示例，我们创建了一个逻辑难题eval，其中包含十个 GPT-4 失败的提示。Evals 还与实施现有基准兼容；我们已经包含了几个实施学术基准的笔记本和一些集成CoQA（的小子集）的变体作为示例。
我们邀请所有人使用 Evals 来测试我们的模型并提交最有趣的示例。我们相信 Evals 将成为使用和构建我们模型的过程中不可或缺的一部分，我们欢迎直接贡献、问题和反馈。
聊天GPT加
Plus 订阅者将在上获得具有使用上限的 GPT-4 访问权限。我们将根据实践中的需求和系统性能调整确切的使用上限，但我们预计会受到严重的容量限制（尽管我们将在接下来的几个月内进行扩展和优化）。
根据我们看到的流量模式，我们可能会为更高容量的 GPT-4 使用引入新的订阅级别；我们也希望在某个时候提供一些免费的 GPT-4 查询，这样那些没有订阅的人也可以尝试一下。