《单眼视频中高分辨率纹理和服装三维人体重建的时间一致性损失》论文翻译

Loss for Highand3D HumanfromVideo
我们提出了一种新的方法来学习时间一致的三维重建穿衣服的人从一个单眼视频 。最近使用体积、隐式或参数人形模型从单眼视频进行三维人体重建的方法,产生每帧重建,产生时间不一致的输出和有限的性能 。在本文中,我们提出了一种学习纹理重建的时间一致性特征的方法,提出了两个进展:一种新的时间一致性损失函数;以及二维图像和粗三维几何隐式三维重建的混合表示学习 。该进展提高了从单眼视频中进行的三维重建和纹理预测的时间一致性和准确性 。对人体图像的综合比较性能评价表明,该方法显著优于基于学习的单图像三维人体形状估计方法,显著提高了重建精度、完整性、质量和时间一致性 。对人体图像的综合比较性能评价表明,该方法显著优于基于学习的单图像三维人体形状估计方法,显著提高了重建精度、完整性、质量和时间一致性 。
1.
从图像中解析人是许多应用程序中的一项基本任务,包括AR/VR界面[13]、角色动画[36]、自动驾驶、虚拟试用[10]和重现[30] 。在二维人体姿态估计[8,2]、二维人体分割[14,49]和单眼视频[25,48,45]的三维人体姿态估计等方面,在了解人体的粗糙几何结构方面取得了重要进展 。最近的研究已经学会从单一图像中估计完整的3D人体形状,令人印象深刻的结果[41,43,52,20,46,6] 。然而,由于在动作、衣服、头发、摄像机视角、体型和姿势上的变化很大,从单眼视频中进行的时间一致的纹理三维重建仍然是一个具有挑战性的问题 。本文通过利用宽时间分离帧和混合隐式-体积表示之间的时间一致的单眼训练损失来解决文献中的这一差距,如图1所示 。
图1 。给定一个受试者的单目视频(中间),所提出的方法创建了一个准确的和时间上一致的三维重建(顶部)与纹理(底部) 。
传统的多视图重建方法[34,28,12,50]已经证明了时间一致性重建[27,37,35]的优势 。然而,从单眼RGB视频中进行时间一致的3D人类重建仍然是一个开放的挑战 。基于参数模型的三维人体形状估计方法已经被提出,利用时间神经网络架构[23,24]来实现时间一致的三维输出 。现有的参数模型只代表潜在的裸体形状,缺乏衣服和头发的重要几何变化 。用于表示服装[4]的增广参数模型表示仅限于紧身服装,紧身服装双射映射到体型,不能准确地表示一般服装,如裙子和夹克 。
最近的无模型方法在使用学习的体积[52,20,38,39]、点云[11]、几何图像[42]和隐式[43,44]表面表示,从单一图像的三维形状重建方面取得了令人印象深刻的结果 。[7]提出了多视图监督来学习完整和视图一致的三维人体重建 。ARCH[17]提出了对单一彩色图像的任意姿态的鲁棒三维重建,Li等人[29]提出了对视频但逐帧处理的三维人体重建 。这些方法只用单图像和三维模型对进行训练,而没有利用帧间的时间信息 。我们为了解决这个问题,提出了一个学习框架来进行纹理三维人体重建,使用宽时间帧视频的时间一致性,以及高分辨率纹理三维形状重建的混合三维体积隐式表示 。利用一种新的宽时间分离帧之间的时间损失函数来学习体积形状表示,从而确保了被遮挡表面区域的精确单视图重建 。新的损失函数学习在单眼重建中加入表面光一致性线索,而这些线索在观察到的图像或三维地面真实形状中是不存在的 。只有当训练模型的预测在所有时间视图中都是一致且可信的时,时间一致性才能被最小化 。提出的方法预测高分辨率的三维几何和彩色纹理从一个单一视图的可见和看不见的人体部分 。这项工作的贡献包括:
1.一种新的学习框架,时间一致重建的详细形状和纹理从单眼视频