论文笔记:Self( 三 )


Humanis aand . 人工反馈是指令调优的一个必要和不可或缺的方面,因为LMs需要了解在预训练期间没有完全了解的问题 。Humanis an . 人工反馈是指令调整的一个可选方面,因为LMs已经非常熟悉预训练中的指令 。观察人类的反馈仅仅是一种调整他们的预训练分布/目标的轻量级过程,这可能被不同的过程所取代 。
虽然现实可能介于这两个极端之间,但本文推测它更接近观点2,特别是对于较大的模型 。这种直觉,即LMs已经非常了解语言指令,是Self-的关键动机,实验结果上的成功也支持了这一点 。
6.2 更深远的影响
本文中的发现证明了多样化指令数据的重要性,大型合成数据集可以成为构建更好的指令遵循模型的高质量数据的第一步 。
6.3 局限性
Self-方法可能存在以下局限性:
7 总结
本文介绍了self-,这是一种任务无关的方法,通过语言模型自己生成指令数据(指令、输入和输出样本)并使用它进行自引导来提高语言模型的指令跟踪能力 。本文在已有数据集和构建的贴近日常应用的数据集上进行了实验,实验结果表明使用self-调优GPT3的性能大大优于使用现有的公共指令数据集 。作者希望self-可以作为调整预训练语言模型以遵循人类指令的第一步,未来的工作可以建立在这些数据的基础上,以改进指令遵循模型 。
参考 Self-:Model with Self,/p/