追溯ChatGPT( 五 )


在自然语言处理的文献中,“推理” 一词的定义很多时候不太明确 。但如果我们从模糊性的角度来看,例如一些问题 (a) 非常模棱两可,没有
推理;(b) 有点儿逻辑在里面,但有些地方也可以模糊;? 非常严谨,不能有任何歧义 。那么,
模型可以很好地进行 (b) 类的带模糊性的推理,例子有:
GPT-3.5 不能进行类型 ? 的推理(推理不能容忍歧义) 。
从互联网进行检索:GPT-3.5 系列(暂时)不能直接搜索互联网
模型的内部知识总是在某个时间被切断 。模型始终需要最新的知识来回答最新的问题 。
回想一下,我们已经讨论过 1750 亿的参数大量用于存储知识
如果我们可以将知识卸载到模型之外,那么模型参数可能会大大减少,最终它甚至可以在手机上运行(疯狂的想法,但已经足够科幻了,谁知道未来会怎样呢).
但是有一篇论文发表于2021年12月,里面就让 GPT 调用了搜索引擎 。所以检索的能力已经在内部进行了测试 。
这里需要区分的一点是,GPT-3.5 的两个重要但不同的能力是 知识 和 推理
一般来说,如果我们能够 将知识部分卸载到外部的检索系统,让语言模型只专注于推理,这就很不错了 。
在这篇博文中,我们仔细检查了GPT-3.5系列的能力范围,并追溯了它们所有突现能力的来源
初代GPT-3模型通过预训练获得生成能力、世界知识和in-
然后通过 的模型分支获得了遵循指令和能泛化到没有见过的任务的能力
经过代码训练的分支模型则获得了代码理解的能力,作为代码训练的副产品,模型同时潜在地获得了复杂推理的能力
结合这两个分支,code--002似乎是具有所有强大能力的最强GPT-3.5模型
接下来通过有监督的 和 RLHF通过牺牲模型能力换取与人类对齐,即对齐税
RLHF 使模型能够生成更详实和公正的答案,同时拒绝其知识范围之外的问题 。
我们希望这篇文章能够帮助提供一个清晰的GPT评估图,并引发一些关于语言模型、 和code 的讨论
最重要的是,我们希望这篇文章可以作为在开源社区内复现GPT-3.5的路线图
【追溯ChatGPT】参考文献