论文链接:
该综述系统性的回顾了预训练基础模型(PFMs)在文本、图像、图和其他数据模态领域的近期前沿研究,以及当前、未来所面临的挑战与机遇 。具体来说,作者首先回顾了自然语言处理、计算机视觉和图学习的基本组成部分和现有的预训练方案 。然后,讨论了为其他数据模态设计的先进PFMs,并介绍了考虑数据质量和数量的统一PFMs 。此外,作者还讨论了PFM基本原理的相关研究,包括模型的效率和压缩、安全性和隐私性 。最后,列出了关键结论,未来的研究方向,挑战和开放的问题 。
写在前面的话
笔者主要从事NLP相关方向,因此在阅读该综述时,重点归纳整理了NLP部分的内容,对于CV和GL的PFMs应用仅以了解为主,如有需要再查漏补缺 。
目录3 PFMs for4 PFMs for5 PFMs for Graph6 PFMs for Other Data7 Otheron PFMs 8and Open
【【综述阅读】A Comprehensive Survey on Pretrain】1
PFMs是通过大量的数据训练出一个通用模型,在使用时仅需微调就能应用于不同的下游任务 。下图是PFMs的发展历程:
2 Basic
PFMs模型的一般架构如下图:
PFMs的具体设计根据不同领域的数据形态和任务要求而有所不同 。是PFMs在NLP和CV等许多领域的主流模型架构设计 。训练大型模型需要有各种数据集进行模型预训练 。在训练PFMs之后,需要对模型进行微调,以满足如效率和隐私等下游需求 。
2.1for PFMs
模型的原理大家应该都比较熟悉了 。因能捕获输入序列数据中的长期依赖,且可扩展性强,能实现高度并行化而被广泛应用于PFMs 。如NLP中的GPT-3、CV中的ViT和GL(图学习)中的GTN模型 。
2.2for PFMs2.3Tasks for PFMs
在预训练和微调的方案中,模型的参数是在预先设定的任务上训练的,以捕捉特定的属性、结构等信息 。预训练的特征可以帮助下游任务,提供足够的信息,并加速模型的收敛 。
Tasks for NLPTasks for CVTasks for GL3 PFMs for
近年用于文本领域的PFMs汇总:
3.1 Word3.2 Model
ELMO:主体采用双向的LSTM,相比于词向量方法,ELMO引入了上下文信息,改善了一词多义问题,但ELMO提取语言特征的整体能力较弱 。
BERT:基于fine-的PFMs典型代表 。BERT使用的双向来预测哪些token被mask,并确定两个句子是否上下文相关 。然而,对文档进行双向编码和独立预测缺失token,降低了模型的生成能力
GPT:基于zero/few-shot 的PFMs的典型代表 。GPT使用自回归解码器作为特征提取器,根据前几个单词预测下一个单词,并使用微调解决下游任务,因此它更适合文本生成任务 。然而,GPT仅利用前一个词进行预测,无法学习双向交互信息 。
BART:使用-结构构成的降噪自编码器,预训练主要包括使用噪声破坏文本和使用模型重建原始文本 。具体见我的blog
3.3
:基于提出的预训练模型,采用动态mask和。其结构如图4所示,提出了Span mask和Span(SBO)策略去mask一定长度的单词 。SBO的目标是通过mask的span的两端来重构被mask的span;训练阶段使用提出的动态掩码策略,而不是在数据预处理的时候进行掩码 。与BERT不同的是,随机地掩盖了连续文本并添加了SBO训练目标 。它使用最接近span边界的来预测跨度,并取消了NSP预训练任务 。
MASS:对句子随机屏蔽一个长度为k的连续片段,然后通过编码器-注意力-解码器模型预测生成该片段 。
UniLM:输入两句 。第一句采用BiLM的编码方式,第二句采用单向LM的方式 。同时训练(BiLM)(Uni-LM) 。处理输入时同样也是随机mask掉一些token 。
3.43.5 -
指示对齐方法的目的是让LM遵循人类的意图并产生有意义的输出 。大致思路就是以有监督的方式得到高质量语料,去微调预训练LM 。如: Fine- (SFT) 、from 、Chain-of- (CoT)