追溯ChatGPT

国内趋势
在国际学术界看来,/ GPT-3.5 是一种划时代的产物
它与之前常见的语言模型 (Bert/ Bart/ T5) 的区别,几乎是导弹与弓箭的区别,一定要引起最高程度的重视
国际上的主流学术机构 (如斯坦福大学,伯克利加州大学) 和主流业界研究院(如谷歌大脑,微软研究院)都已经全面拥抱大模型
国内的技术水准,学术视野,治学理念和国际前沿的差距似乎并没有减少,反而正在扩大
如果现状持续下去,极有可能出现技术断代
2020 版初代 GPT-3 与大规模预训练
初代GPT-3展示了三个重要能力:
语言生成:遵循提示词(),然后生成补全提示词的句子上下文学习 (in- ): 遵循给定任务的几个示例,然后为新的测试用例生成解决方案世界知识:包括事实性知识 ( ) 和常识 ()
以上三种能力都来自于大规模预训练
在有3000亿单词的语料上预训练拥有1750亿参数的模型
训练语料的60%来自于 2016 - 2019 的 C4
22% 来自于
16% 来自于Books
3%来自于
在今天(2022 年 12 月) 的标准下,很难说初代的 GPT-3 是“智能的”
从 2020 版 GPT-3 到 2022 版
GPT-3.5 的进化树
2020 年 7 月,发布了模型索引为的的初代 GPT-3 论文
2021 年 7 月,Codex 的论文发布,其中初始的 Codex 是根据(可能是内部的)120 亿参数的 GPT-3 变体进行微调的
2022 年 3 月,发布了指令微调 ( ) 的论文,其监督微调 () 的部分对应了--beta和text--001
2022 年 4 月至 7 月的,开始对code--002模型进行 Beta 测试,也称其为 Codex
2022 年 5-6 月发布的text--002是一个基于code--002的有监督指令微调 (tuned) 模型 。在text--002上面进行指令微调很可能降低了模型的上下文学习能力,但是增强了模型的零样本能力
2022 年 11 月发布,是使用的基于人类反馈的强化学习的版本指令微调 (withfrom human ) 模型的两种不同变体 。text--003 恢复了(但仍然比code--002差)一些在text--002 中丢失的部分上下文学习能力(大概是因为它在微调的时候混入了语言建模) 并进一步改进了零样本能力(得益于RLHF) 。另一方面,似乎牺牲了几乎所有的上下文学习的能力来换取建模对话历史的能力
总的来说,在 2020 - 2021 年期间,在code--002之前,已经投入了大量的精力通过代码训练和指令微调来增强GPT-3 。当他们完成code--002时,所有的能力都已经存在了 。
很可能后续的指令微调,无论是通过有监督的版本还是强化学习的版本,都会做以下事情
指令微调不会为模型注入新的能力 —— 所有的能力都已经存在了 。指令微调的作用是解锁 / 激发这些能力 。这主要是因为指令微调的数据量比预训练数据量少几个数量级(基础的能力是通过预训练注入的) 。
指令微调将 GPT-3.5 的分化到不同的技能树 。有些更擅长上下文学习,如text--003,有些更擅长对话,如
指令微调通过牺牲性能换取与人类的对齐() 。的作者在他们的指令微调论文中称其为 “对齐税” ( tax) 。许多论文都报道了code--002在基准测试中实现了最佳性能(但模型不一定符合人类期望) 。在code--002上进行指令微调后,模型可以生成更加符合人类期待的反馈(或者说模型与人类对齐),例如:零样本问答、生成安全和公正的对话回复、拒绝超出模型它知识范围的问题 。
Code--002和 Text--002,在代码上训练,在指令上微调
在code--002和text--002之前,有两个中间模型,分别是 --beta 和 text--001 。
两者在很多方面都比上述的两个-002模型差(例如,text--001 链式思维推理能力不强)
我们关注code--002和text--002,这两兄弟是第一版的 GPT3.5 模型