追溯ChatGPT( 五 ) _能力模型

在自然语言处理的文献中，“推理” 一词的定义很多时候不太明确。但如果我们从模糊性的角度来看，例如一些问题 (a) 非常模棱两可，没有
推理；(b) 有点儿逻辑在里面，但有些地方也可以模糊；? 非常严谨，不能有任何歧义。那么，
模型可以很好地进行 (b) 类的带模糊性的推理，例子有：
GPT-3.5 不能进行类型 ? 的推理（推理不能容忍歧义）。
从互联网进行检索：GPT-3.5 系列（暂时）不能直接搜索互联网
模型的内部知识总是在某个时间被切断。模型始终需要最新的知识来回答最新的问题。
回想一下，我们已经讨论过 1750 亿的参数大量用于存储知识
如果我们可以将知识卸载到模型之外，那么模型参数可能会大大减少，最终它甚至可以在手机上运行（疯狂的想法，但已经足够科幻了，谁知道未来会怎样呢).
但是有一篇论文发表于2021年12月，里面就让 GPT 调用了搜索引擎。所以检索的能力已经在内部进行了测试。
这里需要区分的一点是，GPT-3.5 的两个重要但不同的能力是知识和推理
一般来说，如果我们能够将知识部分卸载到外部的检索系统，让语言模型只专注于推理，这就很不错了。
在这篇博文中，我们仔细检查了GPT-3.5系列的能力范围，并追溯了它们所有突现能力的来源
初代GPT-3模型通过预训练获得生成能力、世界知识和in-
然后通过的模型分支获得了遵循指令和能泛化到没有见过的任务的能力
经过代码训练的分支模型则获得了代码理解的能力，作为代码训练的副产品，模型同时潜在地获得了复杂推理的能力
结合这两个分支，code--002似乎是具有所有强大能力的最强GPT-3.5模型
接下来通过有监督的和 RLHF通过牺牲模型能力换取与人类对齐，即对齐税
RLHF 使模型能够生成更详实和公正的答案，同时拒绝其知识范围之外的问题。
我们希望这篇文章能够帮助提供一个清晰的GPT评估图，并引发一些关于语言模型、和code 的讨论
最重要的是，我们希望这篇文章可以作为在开源社区内复现GPT-3.5的路线图
【追溯ChatGPT】参考文献