涨点神器！超越Adam！谷歌提出Lion炼丹优化器，内存更小、效率更高！( 三 ) _模型

下表 3 显示了微调结果，具有更高的分辨率和平均。研究者使用的 ViT-L/16 与之前由 AdamW 训练的 ViT-H/14 结果相匹配，同时参数减少了 2 倍。在将预训练数据集扩展到 JFT-3B 后，Lion 训练的 ViT-g/14 优于之前的 ViT-G/14 结果，参数减少了 1.8 倍。
视觉语言对比学习
本节重点介绍 CLIP 风格的视觉语言对比训练。研究者没有从头开始学习所有参数，而是使用强大的预训练模型初始化图像编码器。
对于锁定图像文本调整 (LiT)，研究者通过使用相同的预训练 ViT 以对比方式训练文本编码器，进而在 LiT 上对 Lion 和 AdamW 进行比较。下表 4 显示了 3 种模型尺度上的零样本图像分类结果，Lion 展示出了对 AdamW 的持续改进。
下图 5（左）展示了 LiT-B/16-B 的示例零样本学习曲线，并在其他两个数据集上得到了类似的结果。
扩散模型
最近，扩散模型在图像生成方面取得了巨大的成功。鉴于其巨大的潜力，研究者测试了 Lion 在无条件图像合成和多模式文本到图像生成方面的表现。
对于上的图像合成，研究者利用 2021 年论文《beat gans on image》中引入的改进 U-Net 架构，在上执行 64×64、128×128 和 256×256 图像生成。如上图 5（中和右）所示，Lion 可以在 FID 分数上实现更好的质量和更快的收敛速度。
对于文本到图像的生成，下图 6 展示了学习曲线。虽然 64 × 64 base 模型没有明显改进，但 Lion 在文本条件超分辨率模型上优于 AdamW 。与 AdamW 相比，Lion 获得了更高的 CLIP 分数并且具有更小的噪声 FID 指标。
语言建模和微调
本节重点介绍语言建模和微调。在纯语言任务上，研究者发现调整 β_1 和 β_2 可以提高 AdamW 和 Lion 的质量。
对于自回归语言建模，下图 7 展示了 Wiki-40B 的 token 级困惑度和 PG-19 的 word 级困惑度。Lion 始终实现比 AdamW 更低的验证困惑度。在 Wiki-40B 和 PG-19 上训练中型模型时，它分别实现了 1.6 倍和 1.5 倍的加速。当模型增加到大尺寸时，PG-19 进一步实现了 2 倍加速。
对于掩蔽语言建模，研究者还在 C4 数据集上执行 BERT 训练，其中 Lion 在验证困惑度方面的表现略好于 AdamW 。相关学习曲线如下图 11（左）所示。
对于微调，研究者在 GLUE 基准上微调 Base（220M）、Large（770M）和最大的 11B T5 模型。下表 6 显示了 GLUE 开发集上的结果，平均而言，Lion 在所有 3 个模型规模上都击败了 AdamW 。
与其他流行优化器的比较
该研究还使用四种流行的优化器 RAdam、NAdam、和在上训练 ViT-S/16 和 ViT-B/16（使用和 Mixup）。如下表 7 所示，Lion 仍然是表现最好的。