涨点神器!超越Adam!谷歌提出Lion炼丹优化器,内存更小、效率更高!( 三 )


下表 3 显示了微调结果,具有更高的分辨率和平均 。研究者使用的 ViT-L/16 与之前由 AdamW 训练的 ViT-H/14 结果相匹配,同时参数减少了 2 倍 。在将预训练数据集扩展到 JFT-3B 后,Lion 训练的 ViT-g/14 优于之前的 ViT-G/14 结果,参数减少了 1.8 倍 。
视觉语言对比学习
本节重点介绍 CLIP 风格的视觉语言对比训练 。研究者没有从头开始学习所有参数,而是使用强大的预训练模型初始化图像编码器 。
对于锁定图像文本调整 (LiT),研究者通过使用相同的预训练 ViT 以对比方式训练文本编码器,进而在 LiT 上对 Lion 和 AdamW 进行比较 。下表 4 显示了 3 种模型尺度上的零样本图像分类结果,Lion 展示出了对 AdamW 的持续改进 。
下图 5(左)展示了 LiT-B/16-B 的示例零样本学习曲线,并在其他两个数据集上得到了类似的结果 。
扩散模型
最近,扩散模型在图像生成方面取得了巨大的成功 。鉴于其巨大的潜力,研究者测试了 Lion 在无条件图像合成和多模式文本到图像生成方面的表现 。
对于上的图像合成,研究者利用 2021 年论文《beat gans on image》中引入的改进 U-Net 架构,在上执行 64×64、128×128 和 256×256 图像生成 。如上图 5(中和右)所示,Lion 可以在 FID 分数上实现更好的质量和更快的收敛速度 。
对于文本到图像的生成,下图 6 展示了学习曲线 。虽然 64 × 64 base 模型没有明显改进,但 Lion 在文本条件超分辨率模型上优于 AdamW 。与 AdamW 相比,Lion 获得了更高的 CLIP 分数并且具有更小的噪声 FID 指标 。
语言建模和微调
本节重点介绍语言建模和微调 。在纯语言任务上,研究者发现调整 β_1 和 β_2 可以提高 AdamW 和 Lion 的质量 。
对于自回归语言建模,下图 7 展示了 Wiki-40B 的 token 级困惑度和 PG-19 的 word 级困惑度 。Lion 始终实现比 AdamW 更低的验证困惑度 。在 Wiki-40B 和 PG-19 上训练中型模型时,它分别实现了 1.6 倍和 1.5 倍的加速 。当模型增加到大尺寸时,PG-19 进一步实现了 2 倍加速 。
对于掩蔽语言建模,研究者还在 C4 数据集上执行 BERT 训练,其中 Lion 在验证困惑度方面的表现略好于 AdamW 。相关学习曲线如下图 11(左)所示 。
对于微调,研究者在 GLUE 基准上微调 Base(220M)、Large(770M)和最大的 11B T5 模型 。下表 6 显示了 GLUE 开发集上的结果,平均而言,Lion 在所有 3 个模型规模上都击败了 AdamW 。
与其他流行优化器的比较
该研究还使用四种流行的优化器 RAdam、NAdam、 和在上训练 ViT-S/16 和 ViT-B/16(使用和 Mixup) 。如下表 7 所示,Lion 仍然是表现最好的 。