ChatGPT作者John Schulman:我们成功的秘密武器

来源|
编译
翻译|杨婷、徐佳渝、贾川
除了,外界可能很少有人知道模型成功的真正原因,实际上,也会对拥有的巨大影响力感到不可思议 。这种困惑和惊喜就像工程师们解bug时获得的意外成功:We don't know why, but it works.
一种普遍的看法是,没有任何革命性技术,正如Meta 首席AI科学家Yann LeCun所说,“只是一些巧妙的技术组合而已” 。当然,听到这话的围观群众不免调侃LeCun这种同行评议是“吃不到葡萄说葡萄酸”,不过,从的缔造者们后续的表态来看,恐怕也不会否认他的“酸话” 。
早在2022年1月,发布了另一款GPT-3.5微调版本,这是的“兄弟模型”,如果用标准基准来评估它们的原始技术能力,两个模型之间并没有实质性不同 。根据科学家们的说法,用的微调方法稍有不同,并且添加了一些对话数据,这让更易上手和易用,由此产生了很大的正面影响 。
新增的对话数据固然重要,不过,让更容易推断出用户的意图,产生质变的根本原因是已在使用的“人类反馈的强化学习(RLHF)”技术,联合创始人、研究科学家John 认为,RLHF才是的秘密武器( sauce) 。
简单来说,强化学习是让研究者像训练狗一样训练AI智能体,并为其做出的正确响应提供奖励,而RLHF的基本思路是,教会大型语言模型学习人类用户真正喜欢的回答偏好来进一步调整模型的响应 。
RLHF技术背后的其中一个作者正是John ,很多人不知道的是,他也是项目的主要负责人 。
作为强化学习大牛,John在这一领域作出过许多重大贡献,例如发明了TRPO算法(信赖域策略优化,Trust)、GAE(广义优势估计,)以及TRPO的后代近端策略优化(),也称PPO算法 。值得一提的是,其博士导师是强化学习领域的开拓者 ,并且也在创立初期工作过一段时间 。
在发布前一个月,John 在RobinSingh 主持的播客节目中,详细介绍了RLHF想法的产生源头,以的主要思想,并阐述了AI对齐以及对AGI实现的看法 。从中,我们也可以看到技术演进的脉络和不曾在论文中被描述的细节,以及团队的下一步研究方向 。
(以下内容经授权后由编译发布,译文转载请联系获得授权 。来源:)
为什么要关注RLHF
Robin :作为深度强化学习的早期开拓者之一,你为什么去关注“人类反馈的强化学习(RLHF)”?
John :GPT-3训练完成后,它的智能程度让我十分吃惊 。我意识到AI领域的下一个前沿在于真正发挥语言模型的作用 。我仍然对RL非常感兴趣,但解决RL基准测试并不是我们的最终目的 。
要使用RL算法,必须通过奖励函数,但是奖励函数从何而来?在RL基准测试中,我们可以自己编写奖励函数,但这种方法必须要在模拟环境( )中才行得通 。所以在现实世界用例中,我们必须要人工监督AI的行为,以分辨好坏 。所以如何定义奖励是一件极具挑战性且至关重要的问题,尤其是在任务评估难度逐渐加深的情况下 。
另一方面,虽然现在语言模型非常聪明,但却难以将它们用在有价值的事情上 。因为它们不会按照我们的意愿去工作,只是在单纯地模仿训练语料库,但这也说明只要给语言模型一个正确的目标,它们就很有可能改进上述问题,也就是说,我们可以在语言模型中应用强化学习,使用人类反馈去定义奖励 。
Robin :相比合成奖励( ),人工反馈是否更难,或者说这两者之间在一定程度上大有不同?
John :使用人工反馈会遇到很多新问题 。现在,我们必须要动态收集数据集,所以要花很多时间去建立人类偏好的数据集,相比各种算法细节,数据集的质量更加重要 。另外我们还要考虑如何将任务分配给人工训练师等问题,如果有程序化的奖励函数,这些问题我们本不用考虑 。