重磅突发!OpenAI正式推出多模态GPT-4( 四 )


注意 , 模型的能力似乎主要来自于预训练过程 , RLHF并不能提高考试成绩(如果不主动努力 , 它实际上会降低考试成绩) 。但是对模型的引导来自于训练后的过程,基础模型需要  , 甚至知道它应该回答问题 。
10
可预测的扩展
GPT-4项目的一大重点是建立一个可预测扩展的深度学习栈 。主要原因是 , 对于像GPT-4这样非常大的训练运行 , 做大量的特定模型调整是不可行的 。我们对基础设施进行了开发和优化 , 在多种规模下都有非常可预测的行为 。为了验证这种可扩展性 , 我们提前准确地预测了GPT-4在我们内部代码库(不属于训练集)中的最终损失 , 方法是通过使用相同的方法训练的模型进行推断 , 但使用的计算量要少10000倍 。
我们认为 , 准确预测未来的机器学习能力是安全的一个重要部分 , 相对于其潜在的影响 , 它没有得到足够的重视(尽管我们已经被几个机构的努力所鼓舞) 。我们正在扩大我们的努力 , 开发一些方法 , 为社会提供更好的指导 , 让人们了解对未来系统的期望 , 我们希望这成为该领域的一个共同目标 。
【重磅突发!OpenAI正式推出多模态GPT-4】11
开放式人工智能评估
我们正在开源 Evals , 这是我们的软件框架 , 用于创建和运行评估GPT-4等模型的基准 , 同时逐个样本检查其性能 。我们使用Evals来指导我们模型的开发(包括识别缺点和防止退步) , 我们的用户可以应用它来跟踪不同模型版本(现在将定期推出)和不断发展的产品集成的性能 。例如 , 已经使用Evals来补充他们的人工评估 , 以衡量他们的GPT驱动的文档工具的准确性 。
因为代码都是开源的 , Evals支持编写新的类来实现自定义的评估逻辑 。然而 , 根据我们自己的经验 , 许多基准都遵循一些 "模板 "中的一个 , 所以我们也包括了内部最有用的模板(包括一个 "模型分级Evals "的模板--我们发现GPT-4有令人惊讶的能力来检查自己的工作) 。一般来说 , 建立一个新的评估的最有效方法是将这些模板中的一个实例化 , 并提供数据 。我们很高兴看到其他人能用这些模板和Evals更广泛地建立什么 。
我们希望Evals成为一个分享和众包基准的工具 , 最大限度地代表广泛的故障模式和困难任务 。作为后续的例子 , 我们已经创建了一个逻辑谜题评估 , 其中包含GPT-4失败的十个提示 。Evals也与实现现有的基准兼容;我们已经包括了几个实现学术基准的笔记本和一些整合CoQA(小的子集)的变化作为例子 。
我们邀请大家使用Evals来测试我们的模型 , 并提交最有趣的例子 。我们相信Evals将成为使用和建立在我们的模型之上的过程中不可或缺的一部分 , 我们欢迎直接贡献、问题和反馈 。
12
Plus用户将在上获得有使用上限的GPT-4权限 。我们将根据实际需求和系统性能调整确切的使用上限 , 但我们预计容量将受到严重限制(尽管我们将在接下来的几个月里扩大和优化) 。
根据我们看到的流量模式 , 我们可能会为更高的GPT-4使用量引入一个新的订阅级别 , 我们也希望在某个时候提供一定数量的免费GPT-4查询 , 这样那些没有订阅的用户也可以尝试 。
API
要获得GPT-4的API(使用与gpt-3.5-turbo相同的 API) , 请可以去的官方上注册 。