大型语言模型综述全新出炉!从T5到GPT-4最全盘点( 六 )


模型的使用:由于微调在实际应用中的成本很高 ,  已经成为使用 LLMs 的突出方法 。通过将任务描述和演示例子结合到中 , 上下文学习( 的一种特殊形式)赋予了 LLMs 在新任务上良好的表现 , 甚至在某些情况下超过了全数据微调模型 。此外 , 为了提高复杂推理的能力 , 人们提出了先进的技术 , 例如思维链(CoT)策略 , 它将中间的推理步骤纳入。然而 , 现有的方法仍然有以下几个不足之处 。首先 , 它在设计时需要大量的人力 , 因此为解决各种任务而自动生成有效的将非常有用;其次 , 一些复杂的任务(如形式证明和数字计算)需要特定的知识或逻辑规则 , 而这些知识或规则可能无法用自然语言描述或用例子来证明 , 因此开发信息量更大、更灵活的任务格式化的方法很重要;第三 , 现有的策略主要集中在单圈的表现上 , 因此开发用于解决复杂任务的交互式机制(如通过自然语言对话)非常有用 ,  已经证明了这一点 。
安全和对齐:尽管 LLMs 具备相当的能力 , 但它的安全问题与小型语言模型相似 。例如 , LLMs 表现出产生幻觉文本的倾向 , 比如那些看似合理但可能与事实不符的文本 。更糟糕的是 , LLMs 可能被有意的指令激发 , 为恶意的系统产生有害的、有偏见的或有毒的文本 , 导致滥用的潜在风险 。要详细讨论 LLMs 的其他安全问题(如隐私、过度依赖、虚假信息和影响操作) , 读者可以参考 GPT-3/4 技术报告 。作为避免这些问题的主要方法 , 来自人类反馈的强化学习(RLHF)已被广泛使用 , 它将人类纳入训练循环 , 以发展良好的 LLMs 。为了提高模型的安全性 , 在 RLHF 过程中加入安全相关的也很重要 , 如 GPT-4 所示 。然而 , RLHF 在很大程度上依赖于专业标签人员的高质量的人类反馈数据 , 使得它很难在实践中得到正确的实施 。因此 , 有必要改进 RLHF 框架 , 以减少人类标签员的工作 , 并寻求一种更有效的注释方法 , 保证数据质量 , 例如可以采用 LLMs 来协助标注工作 。最近 , 红色团队被采用来提高 LLMs 的模型安全性 , 它利用收集的对抗性来完善 LLMs(即避免红色团队的攻击) 。此外 , 通过与人类交流建立 LLMs 的学习机制也很有意义 , 人类通过聊天给出的反馈可以直接被 LLMs 利用来进行自我完善 。
应用和生态系统:由于 LLMs 在解决各种任务方面表现出强大的能力 , 它们可以被应用于广泛的现实世界的应用(例如 , 遵循特定的自然语言指令) 。作为一个显著的进步 ,  已经潜在地改变了人类获取信息的方式 , 这带来了新必应的发布 。在不久的将来 , 可以预见 , LLMs 将对信息搜索技术产生重大影响 , 包括搜索引擎和识别系统 。
此外 , 随着 LLMs 的技术升级 , 智能信息助理的发展和使用将得到极大的促进 。在更广泛的范围内 , 这一波技术创新倾向于建立一个由 LLMs 授权的应用程序的生态系统(例如 ,  对插件的支持) , 这将与人类生活密切相关 。最后 , LLMs 的崛起为通用人工智能(AGI)的探索提供了启示 。它有希望开发出比以往更多的智能系统(可能有多模态信号) 。同时 , 在这个发展过程中 , 人工智能的安全性应该是首要关注的问题之一 , 也就是说 , 让人工智能为人类带来好处而不是坏处 。