【综述阅读】A Comprehensive Survey on Pretrain _模型

论文链接：
该综述系统性的回顾了预训练基础模型（PFMs）在文本、图像、图和其他数据模态领域的近期前沿研究，以及当前、未来所面临的挑战与机遇。具体来说，作者首先回顾了自然语言处理、计算机视觉和图学习的基本组成部分和现有的预训练方案。然后，讨论了为其他数据模态设计的先进PFMs，并介绍了考虑数据质量和数量的统一PFMs 。此外，作者还讨论了PFM基本原理的相关研究，包括模型的效率和压缩、安全性和隐私性。最后，列出了关键结论，未来的研究方向，挑战和开放的问题。
写在前面的话
笔者主要从事NLP相关方向，因此在阅读该综述时，重点归纳整理了NLP部分的内容，对于CV和GL的PFMs应用仅以了解为主，如有需要再查漏补缺。
目录3 PFMs for4 PFMs for5 PFMs for Graph6 PFMs for Other Data7 Otheron PFMs 8and Open
【【综述阅读】A Comprehensive Survey on Pretrain】1
PFMs是通过大量的数据训练出一个通用模型，在使用时仅需微调就能应用于不同的下游任务。下图是PFMs的发展历程：
2 Basic
PFMs模型的一般架构如下图：
PFMs的具体设计根据不同领域的数据形态和任务要求而有所不同。是PFMs在NLP和CV等许多领域的主流模型架构设计。训练大型模型需要有各种数据集进行模型预训练。在训练PFMs之后，需要对模型进行微调，以满足如效率和隐私等下游需求。
2.1for PFMs
模型的原理大家应该都比较熟悉了。因能捕获输入序列数据中的长期依赖，且可扩展性强，能实现高度并行化而被广泛应用于PFMs 。如NLP中的GPT-3、CV中的ViT和GL（图学习）中的GTN模型。
2.2for PFMs2.3Tasks for PFMs
在预训练和微调的方案中，模型的参数是在预先设定的任务上训练的，以捕捉特定的属性、结构等信息。预训练的特征可以帮助下游任务，提供足够的信息，并加速模型的收敛。
Tasks for NLPTasks for CVTasks for GL3 PFMs for
近年用于文本领域的PFMs汇总：
3.1 Word3.2 Model
ELMO：主体采用双向的LSTM，相比于词向量方法，ELMO引入了上下文信息，改善了一词多义问题，但ELMO提取语言特征的整体能力较弱。
BERT：基于fine-的PFMs典型代表。BERT使用的双向来预测哪些token被mask，并确定两个句子是否上下文相关。然而，对文档进行双向编码和独立预测缺失token，降低了模型的生成能力
GPT：基于zero/few-shot 的PFMs的典型代表。GPT使用自回归解码器作为特征提取器，根据前几个单词预测下一个单词，并使用微调解决下游任务，因此它更适合文本生成任务。然而，GPT仅利用前一个词进行预测，无法学习双向交互信息。
BART：使用-结构构成的降噪自编码器，预训练主要包括使用噪声破坏文本和使用模型重建原始文本。具体见我的blog
3.3
：基于提出的预训练模型，采用动态mask和。其结构如图4所示，提出了Span mask和Span（SBO）策略去mask一定长度的单词。SBO的目标是通过mask的span的两端来重构被mask的span；训练阶段使用提出的动态掩码策略，而不是在数据预处理的时候进行掩码。与BERT不同的是，随机地掩盖了连续文本并添加了SBO训练目标。它使用最接近span边界的来预测跨度，并取消了NSP预训练任务。
MASS：对句子随机屏蔽一个长度为k的连续片段，然后通过编码器-注意力-解码器模型预测生成该片段。
UniLM：输入两句。第一句采用BiLM的编码方式，第二句采用单向LM的方式。同时训练(BiLM)(Uni-LM) 。处理输入时同样也是随机mask掉一些token 。
3.43.5 -
指示对齐方法的目的是让LM遵循人类的意图并产生有意义的输出。大致思路就是以有监督的方式得到高质量语料，去微调预训练LM 。如： Fine- (SFT) 、from 、Chain-of- (CoT)