视频压缩 论文笔记26 -- 【CVPR2020】M

《M-LVC:forVideo》
DVC的升级版!!!
论文:点这里
代码:点这里
Lin, Dong Liu,Li, Feng Wu
CVPR 2020
本文提出了一种适用于低延迟场景的端到端学习视频压缩方案 。以往的方法都局限于以前一帧作为参考,本文方法引入前面的多个帧作为参考 。在本文方案中,计算当前帧与前一帧之间的运动向量(the(MV) field) 。在多个参考帧和多个MV的情况下,本文设计的网络可以对当前帧产生更精确的预测,产生更少的残差 。多参考帧也有助于生成MV预测,从而降低MV的编码成本 。使用两个深度自动编码器分别压缩残差和MV 。为了补偿自动编码器的压缩误差,同时利用多个参考帧,进一步设计了一个MV优化网络和一个残差优化网络 。在本文方案中,所有的模块都是通过单个的率-失真损失函数来联合优化的 。采用分步训练策略来优化整个方案 。实验结果表明,在低延迟模式下,该方法优于现有的学习视频压缩方法 。方法在PSNR和MS-SSIM方面也优于H.265 。
1.
视频在2017年占所有互联网流量的75%,预计到2022年将达到82%[7] 。将视频压缩成较小的尺寸是降低传输成本的迫切要求 。当前,互联网视频通常被压缩为H.264[31]或H.265[22]格式 。H.266和AV1等新的视频编码标准即将推出 。尽管新标准有望改善压缩率,但这种改进伴随着成倍增加的编码复杂性 。实际上,所有正在使用或即将采用的标准都遵循相同的框架,即运动补偿预测,基于块的变换和手工熵编码 。该框架已经被继承了三十多年,并且框架内的发展逐渐饱和 。
近年来,一系列的研究试图在经过训练的深度网络上构建全新的视频压缩方案 。这些研究根据其目标情景可分为两类 。对于第一类,Wu提出了一种基于递归神经网络(RNN)的插值视频压缩方法[32],其中运动信息通过传统的基于块的运动估计来获得,并通过图像压缩方法进行压缩 。随后,等人也提出了一种基于插值的视频压缩方法,该方法将运动信息压缩和图像合成相结合,图像和残差使用相同的自动编码器[8] 。基于插值的压缩使用前一帧和后一帧作为参考来压缩当前帧,这在诸如回放之类的随机访问场景中是有效的 。然而,它不太适用于低延迟场景,如实时传输 。
第二类研究针对低延迟情景,并限制网络仅使用时间上的先前帧作为参考 。例如,Lu等人 。DVC提出了一种端到端的深度视频压缩模型,该模型可共同学习运动估计,运动压缩,运动补偿和残差压缩函数[15] 。在该模型中,仅使用前一帧进行运动补偿,这可能无法充分利用视频帧中的时间相关性 。等人 。提出了另一种视频压缩模型,它保持一个潜在的状态来存储先前帧的信息[19] 。由于存在潜在状态,该模型很难训练,并且对传输误差敏感 。
在这篇论文中,针对低延迟情景,作者提出一种端到端的学习视频压缩方案 。关键思想是使用前面的多个帧作为参考 。与只使用一个参考帧的DVC相比,使用的多个参考帧将预测提高了两倍 。首先,给定多个参考帧和相关联的多个运动向量(MV),可以导出用于预测当前帧的多个假设;这些假设的组合提供了一个集合 。第二,给定多个MV,可以进行外推来预测下一个MV,利用MV预测可以降低MV的编码成本 。因此,该方法被称为学习视频压缩的多帧预测(M-LVC) 。注意在文献[19]中,先前多帧的信息被隐式地用于通过潜在状态来预测当前帧;但是在本文方案中,多帧预测是显式处理的 。因此,本文方案具有更高的可扩展性(即可以使用更多或更少的参考),更易于解释(即通过运动补偿实现预测),并且根据我们的观察结果更易于训练 。