快跑!传说中的GPT4真的来了!多模态,吊打旧版ChatGPT!( 四 )


因此,当出现问题提示时,基本模型可以以多种可能与用户意图相去甚远的方式做出响应 。为了使其与护栏内的用户意图保持一致,我们使用强化学习和人工反馈 ( RLHF)来微调模型的行为 。
请注意,该模型的能力似乎主要来自预训练过程——RLHF 不会提高考试成绩(如果不积极努力,它实际上会降低考试成绩) 。但是模型的控制来自训练后过程——基础模型需要及时的工程设计甚至知道它应该回答问题 。
可预测的扩展
GPT-4 项目的一大重点是构建可预测扩展的深度学习堆栈 。主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定于模型的调整是不可行的 。我们开发的基础设施和优化在多个尺度上具有非常可预测的行为 。为了验证这种可扩展性,我们通过从使用相同方法训练但使用 10,000 倍更少计算的模型进行推断,准确预测了 GPT-4 在我们内部代码库(不是训练集的一部分)上的最终损失:
现在我们可以准确地预测我们在训练期间优化的指标(损失),我们开始开发方法来预测更多可解释的指标 。例如,我们成功预测了数据集子集的通过率,从计算量减少 1,000 倍的模型推断:
有些能力仍然难以预测 。例如,Prize 是一项竞赛,目的是寻找随着模型计算量的增加而变得更糟的指标,而后见之明的忽视是获胜者之一 。就像最近的另一个结果一样,GPT-4 扭转了趋势:
我们认为,准确预测未来的机器学习能力是安全的重要组成部分,但相对于其潜在影响而言,它并没有得到足够的重视(尽管我们受到了多个机构的努力的鼓舞) 。我们正在加大力度开发方法,为社会提供更好的未来系统预期指导,我们希望这成为该领域的共同目标 。
评估
我们正在开源 Evals,这是我们的软件框架,用于创建和运行基准测试以评估 GPT-4 等模型,同时逐个样本地检查它们的性能 。我们使用 Evals 来指导我们模型的开发(识别缺点和防止回归),我们的用户可以应用它来跟踪模型版本(现在将定期发布)的性能和不断发展的产品集成 。例如, 使用 Evals 来补充他们的人工评估,以衡量其基于 GPT 的文档工具的准确性 。
由于代码全部开源,Evals 支持编写新的类来实现自定义评估逻辑 。然而,根据我们自己的经验,许多基准测试都遵循少数“模板”之一,因此我们还包括了内部最有用的模板(包括“模型分级评估”模板——我们发现 GPT- 4 令人惊讶地能够检查自己的工作) 。通常,构建新评估的最有效方法是实例化这些模板之一并提供数据 。我们很高兴看到其他人可以使用这些模板和更普遍的 Evals 构建什么 。
我们希望 Evals 成为共享和众包基准测试的工具,代表最广泛的故障模式和困难任务 。作为要遵循的示例,我们创建了一个逻辑难题eval,其中包含十个 GPT-4 失败的提示 。Evals 还与实施现有基准兼容;我们已经包含了几个实施学术基准的笔记本和一些集成CoQA(的小子集)的变体作为示例 。
我们邀请所有人使用 Evals 来测试我们的模型并提交最有趣的示例 。我们相信 Evals 将成为使用和构建我们模型的过程中不可或缺的一部分,我们欢迎直接贡献、问题和反馈 。
聊天GPT加
Plus 订阅者将在上获得具有使用上限的 GPT-4 访问权限 。我们将根据实践中的需求和系统性能调整确切的使用上限,但我们预计会受到严重的容量限制(尽管我们将在接下来的几个月内进行扩展和优化) 。
根据我们看到的流量模式,我们可能会为更高容量的 GPT-4 使用引入新的订阅级别;我们也希望在某个时候提供一些免费的 GPT-4 查询,这样那些没有订阅的人也可以尝试一下 。