复旦NLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了

MOSS-RLHF:稳定可靠的大模型人类价值对齐解决方案!
以为代表的大型语言模型(LLM)在各项任务上的高效表现彰显了其广阔发展前景 。然而 , 大模型回复与人类价值偏好经常存在不一致问题 。
如何让大模型更好的与人类价值观对齐 , 理解语言背后的含义 , 生成更具 “人情味” 的内容成为大语言模型研究的热点 。最近 , 复旦大学自然语言处理()团队桂韬、张奇课题组在这一技术难题上取得巨大进展!该团队深入研究了大模型的基于人类反馈的强化学习 (from Human , RLHF) 细节 , 为大模型人类对齐训练提供了更加稳定可靠的解决方案 。此外 , 该团队在开源领域迈出重要一步 —— 首次同时发布大模型人类对齐技术报告与开源核心代码  , 为推动中文 NLP 社区繁荣做出重大贡献 。
大模型人类对齐面临挑战
未经人类对齐的大模型常常生成有害内容 , 存在安全性方面的隐患 , 直接影响大模型的落地 。实现人类对齐的大模型通常需要满足 3H 条件:(有益),(诚实),(无害) 。当前 , 达成这一目标的重要技术范式是基于人类反馈的强化学习(RLHF) 。然而受限于实验设计困难、试错成本巨大等多重因素 , RLHF 的稳定训练仍然是一个难题 。
此前公布的技术报告中将 PPO( , 近端策略优化)算法作为 RLHF 阶段的强化学习算法 。然而其并未开源训练技术细节 , 且 PPO 算法在过去通常被应用于自动化、游戏等领域 , 其在自然语言处理(NLP)领域的具体作用仍需大量实验验证 , 但当前国内并没有一项完整的工作探究 PPO 的稳定训练及其在大模型人类对齐中的影响 。面对这一技术挑战 , 研究人员迫切需要进一步探索 PPO 算法对大模型人类对齐的作用机理 。
确定大模型人类对齐的关键因素 , 提高对齐的训练稳定性
团队通过大量、详实工作 , 设计实验充分探索了大模型 RLHF 的完整工作流程 , 仔细剖析了 RLHF 中的强化学习 PPO 算法的内部工作原理以及它在整个 RLHF 中的作用 , 并研究各种优化方法如何影响训练过程 。通过这些努力 , 确定了使得 PPO 算法在大模型人类对齐方面行之有效的关键因素 。
综合上述发现 , 该团队进一步总结出在大模型上训练更稳定的 PPO 算法版本:PPO-max 。并使用和数据集全面评估 , 结果显示经过 PPO-max 算法训练的模型展现出了出色的人类对齐性能!
经人类对齐后大模型安全伦理表现优异
经过人类对齐训练后的 RLHF 模型相对 SFT( Fine- , 监督微调)模型的性能表现如下图所示 。该研究采取人工评测和 GPT-4 评测两种方式 , 人工评测基于参与评测人员对于不同模型输出的偏好 , 而在 GPT-4 评测过程中 , 该研究要求 GPT-4 生成详细的评测理由 , 这将使得最终的结果更加公平 。
人工评测:评测人员在中文和英文两种类型的问题上 , 均更倾向于 RLHF 模型的输出 。具体来说 , RLHF 模型在英文数据集上优势显著 , 人工评测得分为 62% , 而 SFT 模型的得分为 5% 。这表明 , 经过 RLHF 训练的语言模型极大地提高了其面对各种有害性问题时的处理能力 , 包括个人隐私、政治敏感话题以及种族群体提问中带有歧视、偏见的提示 。此外 , 在数据集上也可以观察到一定程度的提升:RLHF 模型的评分为 44% , 而 SFT 模型的评分为 30% 。这表明 , SFT 模型也可以从 RLHF 优化训练中受益 。人工评测的结果同时验证了 RLHF 训练能够提高 SFT 模型在中文和数据集上的性能 。