论文超详细精读|六千字:ICCV19-PIFu

文章目录二、 Work 三、PIFu: Pixel-3.1. -view(单视角表面重建) 3.2.(纹理推测)3.3. Multi-View (多视图立体) 四、 五、
前言
笔者从人工智能小白的角度 , 力求能够从原文中解析出最高效率的知识 。
之前看了很多博客去学习AI , 但发现虽然有时候会感觉很省时间 , 但到了复现的时候就会傻眼 , 因为太多实现的细节没有提及 。而且博客具有很强的主观性 , 因此我建议还是搭配原文来看 。
请下载原文《PIFu: Pixel-for
High-Human 》搭配阅读本文 , 会更高效哦!
总览
首先 , 看完标题 , 摘要和结论 , 我了解到了以下信息:
作者引入了一种新的像素对齐隐函数 , 它将输入图像的像素级信息与3D对象的形状在空间上对齐 , 用于基于深度学习的服装人体从单一输入图像进行3D形状和纹理推理 。利用PIFU , 作者提出了一种端到端的深度学习方法 , 用于数字化衣着具有较高细节的人模型 , 该方法可以从一幅或多幅图像中推断出3D表面和纹理 。与现有的用于3D深度学习的表示相比 , PIFU产生高分辨率的表面 , 包括基本看不见的区域 , 如人的背部 。处理任意附加视图的能力 , 这一特性使得PIFu特别适合于使用稀疏视图的实用和高效的3D建模 , 而这一情况下传统的多视图立体或运动结构将无法实现 。一、 1.1 背景 2D图像处理最成功的深度学习方法(例如语义分割、2D联合检测)利用了 fully架构 , 保持了图像和输出之间的空间对齐 , 但这在3D领域尤其具有挑战性 。尽管立体像素可以使用 full的方法 , 但如此一来 , 表示法的内存密集特性就从根本上限制了生成精密表面的能力 。而PIFu以完全卷积的方式将像素级的单个局部特征与整个对象的全局上下文对齐 , 并且不需要像基于立体像素的表示那样占用大量内存 。
在这项工作中 , 作者展示了局部特征和3D感知的隐性表面表示的结合带来了显著的效果 , 包括甚至从单一视角的高细节的重建 。1.2 实现特点 训练一个编码器 , 为图像的每个像素学习单独的特征向量 , 以此来考虑到相对于其位置的全局环境 。给出这个每个像素的特征向量和指定的沿该像素流出的相机射线的Z深度 , 我们学习一个隐含函数 , 该函数可以对这个Z深度对应的三维点是在表面之内还是之外进行分类 。特别的是 , PIFu的特征向量可以与全局3D模型表面形状在像素级别上对齐 , 这样可以保留输入图像存在的局部细节 , 同时对没有见到的区域进行一个推断(包括细节) 。PIFu的端到端和统一的数字化方法可以直接预测具有复杂发型和穿着任意服装的人的高分辨率三维形状 。尽管有大量的未见区域 , 特别是对于单视角的输入 , PIFu方法可以生成一个类似于从多视角立体摄影测量或其他三维扫描技术得到的完整模型 。通过额外的多视图立体约束 , PIFu也可以很自然地扩展到处理多个输入图像 , 但由于从单一的输入图像就可以生成一个完整的纹理网格 , 添加更多的视图只会通过为不可见的区域提供额外的信息来进一步改善PIFu的结果 。二、 Work 2.1 -view 3D Human (单视图3D人体数字化) 由于问题的模糊性 , 单视图数字化技术需要很强的先验知识 。尽管参数化模型能够捕捉人体的测量和运动 , 但它们只能产生一个裸体的人体 。