从BERT到ChatGPT！97页全面综述：那些年一起追过的预训练基础模型 _训练

【导读】2023年了，还有人从头开始训模型吗？追踪一下从Bert以来的那些预训练模型。
在few-shot和zero-shot场景下展现出的惊人性能，让研究人员们更坚定「预训练」是一条正确的路线。
预训练基础模型（, PFM）被认为是不同数据模式下各种下游任务的基础，即基于大规模数据，对 BERT、 GPT-3、 MAE、 DALLE-E 和等预训练基础模型进行训练，为下游应用提供了合理的参数初始化。
PFM 背后的预训练思想在大型模型的应用中起着重要作用，与以往采用卷积和递归模块进行特征提取的方法不同，生成预训练(GPT)方法采用作为特征提取器，在大型数据集上进行自回归训练。
随着 PFM 在各个领域获得巨大成功，近几年发表的论文中提出了大量的方法、数据集和评价指标，行业内需要一篇从BERT开始一直追踪到发展过程的全面综述。
最近，来自北航、密歇根州立大学、理海大学、南洋理工、杜克等国内外多所知名院校、企业的研究人员联合写了一篇关于预训练基础模型的综述，提供了在文本、图像和图（graph）等领域的最近的研究进展，以及目前和未来的挑战、机遇。
Aon: A
from BERT to
论文：
研究人员首先回顾了自然语言处理、计算机视觉和图形学习的基本组成部分和现有的预训练；然后讨论了其他先进的 PFM 的其他数据模式和统一的 PFM 考虑数据质量和数量；以及PFM 基本原理的相关研究，包括模型效率和压缩、安全性和隐私性；最后，文中列出了几个关键的结论，包括未来的研究方向、挑战和开放的问题。
从BERT到
预训练基础模型（PFMs）是大数据时代构建人工智能系统的重要组成部分，其在自然语言处理（NLP）、计算机视觉（CV）和图学习（GL）三大人工智能领域得到广泛的研究和应用。
PFMs是通用模型，在各个领域内或跨领域任务中都很有效，在各种学习任务中学习特征表示方面表现出巨大的潜力，如文本分类、文本生成、图像分类、物体检测和图分类等。
PFMs在用大规模语料库训练多个任务并对类似的小规模任务进行微调方面表现出卓越的性能，使得启动快速数据处理成为可能。

文章插图
PFMs和预训练
PFMs是基于预训练技术的，其目的是利用大量的数据和任务来训练一个通用模型，在不同的下游应用中可以很容易地进行微调。
预训练的想法起源于CV任务中的迁移学习，在认识到预训练在CV领域的有效性后，人们开始使用预训练技术来提高其他领域的模型性能。当把预训练技术应用于NLP领域时，经过良好训练的语言模型（LMs）可以捕捉到对下游任务有益的丰富知识，如长期依赖关系、层次关系等。
此外，预训练在NLP领域的显著优势是，训练数据可以来自任何未标记的文本语料库，也就是说，在预训练过程中存在着无限量的训练数据。
早期的预训练是一种静态方法，如NNLM和，很难适应不同的语义环境；后来有研究人员提出了动态预训练技术，如BERT、XLNet等。
PFMs在NLP、CV和GL领域的历史和演变
基于预训练技术的PFMs使用大型语料库来学习通用语义表征，随着这些开创性工作的引入，各种PFMs已经出现，并被应用于下游的任务和应用。
一个显著的PFM应用案例就是最近爆火的。
是从生成式预训练，即GPT-3.5在文本和代码的混合语料训练后，再微调得到的；使用了来自人类反馈的强化学习（RLHF）技术，也是目前将大型LM与人类的意图相匹配的一种最有前景的方法。
的优越性能可能会导致每一类PFMs的训练范式转变的临界点，即应用指令对齐（）技术，包括强化学习（RL）、和思维链（chain-of-），并最终走向通用人工智能。