Transformer能解释一切吗?( 三 )


并且由于这样的预测方式本质上缺乏时间尺度,这样的模型也就缺乏真正意义上的规划和决策能力 。
矛头在根本上对准 。
言下之意,统领了一种以预训练规模兑换智能涌现能力——所谓大力出奇迹——的发展道路(并且到目前为止取得了瞩目的成果),但如果真的有一条通往AGI的道路,到底是该以数据驱动模型,还是模型驱动数据?这仍是一个悬而未决的问题 。
七、“刺激—反应”
杨立昆与这条区别于GPT的AGI未来猜想路径,更强调智能体主动发起的与物理世界之间的实时关系,这是强化学习擅长的事 。在这一点上,的继承者也只是治标不治本 。
在中以人类反馈强化学习(RLHF)的微调方法补充了这种实时反馈的能力 。但大语言模型的所有“常识”——也就是其智能所在——都来自一次次隆重的预训练,即在知道最优数据分布时,依靠巨大的模型、算力以及数据去拟合分布 。这是与GPU在并行计算能力上的契合所带来的便利,而作为继任者的,只是在极力优化这整个后续的计算过程 。
而强化学习与有监督学习、无监督学习都不一样 。它本身并不知道最优分布,而是通过奖励信号的反馈机制不停的寻找相对的“最优” 。这种在与环境交互中主动“试错”,并且获取正反馈(收益),进而从自身经验中进一步理解环境的方式,相比自监督学习来说更加接近人类对于物理世界的理解方式,这就像心理学中的“刺激—反应”理论 。
很多人对强化学习的第一次感性认识都来自曾颠覆了人类围棋世界的,而到目前为止 。全世界可能也没有另一家公司比背后的公司更懂强化学习 。
与在的基础上做调整不同,在6月末提出了另一种大模型的迭代思路——+GPT4 。
八、和
人类一败涂地的故事总是瞩目,但曾有一个后辈 Zero 。
2016年,用树搜索和上万张棋局的预先学习,4:1击败了李世乭 。但另一个延续下去的故事是,Zero在一年后以100:0的战绩击溃了 。
2017年《自然》上的一篇论文介绍了这项壮举,核心的内容是 Zero如何在完全没有先验知识,即不依赖任何人类数据、指导或领域知识的前提下,通过自我学习来获得超越人类水平的专业领域能力 。
换言之,Zero就好像带着一个空脑袋,坐在一间屋子里,在只掌握围棋游戏规则信息,眼前只有一副围棋棋盘和棋子的情况下,击败了 。
Zero的不同之处在于它采用了一种完全基于强化学习的算法,仅仅将自己作为老师,以此诞生出更高质量的走法选择 。与使用人类专家数据进行训练相比,纯粹的强化学习方法只需要多训练几个小时,但渐近性能(算法在接近其理论极限时的性能)要好得多 。
Zero的胜利是强化学习的胜利 。但它的局限性也很明显,就像杨立昆所推崇的能量模型(-based )所具有的问题一样,“采样速度太慢了”,一位强化学习领域的研究者表示 。
九、
现在这条更侧重强化学习的AGI路径,压在了正在研究的一个新的名为的大模型身上 。CEO 哈萨比斯表示,对的研发投入将会超过数千万甚至数亿美金 。做个对比,用1个亿美金迭代出了GPT-4 。
“”本身是双子座的意思 。在哈萨比斯的表述中,这个全新的大模型将会是GPT4和的结合体,它仍然是一个大语言模型,但所具备的强化学习和树搜索能力会给带来更强的决策和规划能力——这个杨立昆认为GPT在AGI道路上早晚会遇到的阿喀琉斯之踵 。
背后的谷歌显然希望能借着重新在与微软的争锋中占到一个好的位置 。在问世之后,谷歌快速站到了的对手的背后 。如果这被看作一种防守姿态的话,则更像谷歌主动发起的一场新的路线之争,就像曾经在GPT与BERT身上发生过的事情一样 。