ICIP 2021 论文阅读:LATENT( 二 )


3.3.1
本文研究的CI系统的马尔可夫链模型如图1所示 。输入图像X经过边缘子模型f1处理,产生特征Y,在云端,子模型f2从特征Y重建一个输入图像X的近似 X ^ \hat{\{X}} X^,子模型f3进行对象检测,生成集合T,包含包围块和对象类 。
流程链 X → Y → X ^ \{X} \to \{Y} \to \hat{\{X}} X→Y→X^作为一个端到端编解码器 。注意,还可以对解码后的图像 X ^ \hat{\{X}} X^进行对象检测,使用现成的对象检测器,如YOLO[16]或SSD[17],如图1中f4所示 。事实上,这种从解码图像(而不是原始图像)进行对象检测是常见的做法,因为对象检测数据集(如COCO[18]和[19])包含的是jpeg压缩的图像,而不是原始图像 。将数据处理不等式[20]应用于马尔可夫链 Y → X ^ → T \{Y} \to \hat{\{X}} \to T Y→X^→T,我们有
其中 I ( ? , ? ) I(\cdot,\cdot) I(?,?)表示互信息 。这表明,中间特征 Y \{Y} Y携带的对象检测(T)信息比它们携带的输入重建(Xb)信息要少 。这种观察激发了我们的方法——我们构造特征Y,这样Y只有一部分用于对象检测,而Y的整个用于输入重建 。图2展示了我们的CI系统架构 。系统中的许多模块都是基于[21]的,下面将更详细地讨论新提出的模块 。
3.2and
大多数的端到端学习图像压缩方法[21-23]都是针对RGB输入图像而设计的,本系统是针对输入格式设计的,而输入格式在视频编码中更为常见 。具体地说,输入图像X包括亮度通道 X L ∈ R 1 × H × W X_L \in R^{1×H×W} XL?∈R1×H×W和色度通道 X C ∈ R 2 × H / 2 × W / 2 X_C \in R^{2×H/2×W/2} XC?∈R2×H/2×W/2,其中 H × W H ×W H×W为输入分辨率 。相应的分析编码器和合成解码器如图3所示 。分析编码器包括许多卷积层(’ CONV ')(5 × 5滤波器)和广义区分归一化(GDN)[24]层 。亮度分支的降采样通过与 2的卷积实现 。是 的镜像,用转置卷积替换卷积(用’表示),用逆GDN (IGDN)层替换GDN层 。在合成解码器的输出处,重构输入 X ^ \hat{\{X}} X^由亮度重构 X L ^ \hat{\{X}_L} XL?^?和色度重构 X C ^ \hat{\{X}_C} XC?^?组成 。
3.3 -space
【ICIP 2021论文阅读:LATENT】本系统的隐空间特征张量维数为 Y ∈ R N × H / 16 × W / 16 Y \in R^{N×H/16×W/16} Y∈RN×H/16×W/16由N = 192个通道组成: Y = { Y 1 , Y 2 , . . . , Y N } Y = \{Y_1,Y_2,...,Y_N\} Y={Y1?,Y2?,...,YN?},我们讲张量分割为两个部分,Y b a s e = { Y 1 , Y 2 , . . . , Y j } Y_{base} = \{Y_1,Y_2,...,Y_j\} Ybase?={Y1?,Y2?,...,Yj?}表示为基础级特征,其中 j < N j < N j