译 GPT-4 官方技术报告( 二 )


我们致力于对我们的技术进行独立审计,并在系统卡中分享了一些这方面的初步措施和想法 。我们计划将更多的技术细节提供给更多的第三方,他们可以就如何权衡上述竞争和安全考虑与进一步透明的科学价值向我们提供建议 。
除了随附的系统卡,很快将发布关于人工智能系统的社会和经济影响的更多想法,包括有效监管的必要性 。3 可预测的规模化
GPT-4项目的一大重点是建立一个可预测地扩展的深度学习栈 。主要原因是,对于像GPT-4这样的大型训练运行,进行大量的特定模型调整是不可行的 。为了解决这个问题,我们开发了基础设施和优化方法,这些方法在多个规模上有非常可预测的行为 。这些改进使我们能够可靠地预测GPT-4的某些方面的性能,从使用1,000倍-10,000倍计算量训练的较小模型 。
3.1 损失预测
正确训练的大型语言模型的最终损失被认为是由用于训练模型的计算量的幂次定律来近似的[41, 42, 2, 14, 15]。
为了验证我们的优化基础设施的规模化能力,我们通过拟合带有不可减少的损失项的缩放定律(如等人[15])来预测GPT-4在我们内部代码库(不属于训练集)中的最终损失:$L(C)=aC^b+c$,来自使用相同方法训练的模型,但使用的计算量最多比GPT-4少10,000倍 。这一预测是在运行开始后不久做出的,没有使用任何部分结果 。拟合的缩放定律高度准确地预测了GPT-4的最终损失(图1) 。
图1. GPT-4和小型模型的性能 。该指标是在源自我们内部代码库的数据集上的最终损失 。这是一个方便的、大型的代码词元数据集,不包含在训练集中 。我们选择看损失,因为在不同的训练计算量中,它的噪音往往比其他衡量标准小 。虚线显示的是对较小模型(不包括GPT-4)的幂次定律拟合;这个拟合准确地预测了GPT-4的最终损失 。X轴是归一化的训练计算量,因此GPT-4为1 。
3.2 能力规模化
在训练前对模型的能力有一个认识,可以改善围绕调整、安全和部署的决策 。除了预测最终损失外,我们还开发了预测更多可解释性能力指标的方法 。其中一个指标是数据集的通过率[43],它衡量了合成不同复杂度的函数的能力 。我们成功地预测了数据集的一个子集的通过率,其方法是从计算量最多减少1,000倍的模型中推断出来的(图2) 。
图2. GPT-4和小型模型的性能 。该指标是数据集子集上的平均对数通过率 。虚线显示了对小型模型(不包括GPT-4)的幂次定律拟合;该拟合准确地预测了GPT-4的性能 。X轴是训练计算量的标准化,因此GPT-4为1 。
对于中的个别问题,性能可能偶尔会随着规模的扩大而恶化 。尽管有这些挑战,我们发现一个近似的幂次定律关系$?E_P[log((C))] = α?C^{?k}$,其中k和α是正常数,P是数据集中的一个问题子集 。我们假设这种关系对该数据集中的所有问题都成立 。在实践中,非常低的通过率是很难或不可能估计的,所以我们限制在问题P和模型M上,以便给定一些大的样本计划,每个问题都被每个模型至少解决一次 。
我们在训练完成前就登记了GPT-4在上的表现预测,只使用训练前的可用信息 。除了15个最难的问题外,所有问题都根据较小模型的表现被分成6个难度桶 。图2显示了第3个最简单的桶的结果,显示了对这个问题子集的预测非常准确,我们可以准确地估计几个小模型的log() 。对其他五个桶的预测几乎表现良好,主要的例外是GPT-4在最简单的桶上的表现低于我们的预测 。
某些能力仍然难以预测 。例如,奖[44]提出了几个任务,这些任务的模型性能随着规模的变化而下降 。与Wei等人[45]的最新结果类似,我们发现GPT-4扭转了这一趋势,如图3所示,在其中一项名为 的任务中[46] 。