FateZero: Fusing Attentions for Zero

:for Zero-shot Text-based VideoShape-Aware Video (形状感知视频编辑) study
: 使用预训练的t2i模型实现zero-shot 、text-based 视频编辑
: 在上修改
【FateZero: Fusing Attentions for Zero】在反转过程中的每一步 , 存储self-与cross- maps(目的:能够在随后的ddim 的去噪步骤中替换它们);
将自我注意块改造为时空注意块 , 目的:使外观更加一致
block
归纳总结:
做的什么任务 , 要达到什么目的 , 输入是什么 , 输出是什么?
zero-shot text-based video  , 输入为原视频(及源) , 编辑 , 输出编辑后的图像通过什么方式实现的编辑或者生成 , 了解不同的方式有什么特点 DDIM
DDIM:
z t ? 1 = α t ? 1 z t ? 1 ? α t ε θ α t + 1 ? α t ? 1 ε θ , ( 2 ) z_{t-1}=\sqrt{\{t-1}}\frac{z_{t}-\sqrt{1-\{t}}\{\theta}}{\sqrt{\{t}}}+\sqrt{1-\{t-1}}\{\theta},\quad(2) zt?1?=αt?1??αt??zt??1?αt??εθ??+1?αt?1??εθ?,(2)
DDIM :
z ^ t = α t z ^ t ? 1 ? 1 ? α t ? 1 ε θ α t ? 1 + 1 ? α t ε θ . ( 3 ) \hat z_t=\sqrt{\}\frac{\hat z_{t-1}-\sqrt{1-\{t-1}}\\theta}{\sqrt{\{t-1}}}+\sqrt{1-\}\\theta.\quad(3) z^t?=αt??αt?1??z^t?1??1?αt?1??εθ??+1?αt??εθ?.(3)

FateZero: Fusing Attentions for Zero

文章插图
之前的工作:edit 与DDIM重建过程中的融合
:edit 与DDIM 过程中存储的融合
Video
是什么? style and(v1.4) , shape (Tune a video)
如何?
anmask 如何获得?
首先将源视频编码的 z 0 z_{0} z0?输入DDIM , 得到 z T z_{T} zT? , 条件为 p s r c p_{src} psrc?(源视频)
将 z T z_{T} zT?逐步去噪 , 得到 z ^ 0 \hat{z}_0 z^0? , 以 p e d i t p_{edit} pedit?为条件
在DDIM 过程中 , 存储self- maps t s r c s_t^{src} stsrc? 与 crossmapc t s r c c_t^{src} ctsrc?
在去噪过程中 , 未编辑部分的cross 部分 c t e d i t c_t^{edit} ?用原始crossc t s r c c_t^{src} ctsrc? 替换(未编辑的部分保持原始的)用一种 anmask(自适应的空间掩码 , 由 c t s r c c_t^{src} ctsrc?获得)融合 s t s r c s_t^{src} stsrc?与 s t e d i t s_t^{edit} ?
Map
去掉修改后的self-:直接用 s s r c s^{src} ssrc替换 s e d i t s^{edit} sedit
FateZero: Fusing Attentions for Zero

文章插图
保留修改后的self-:保留 s e d i t s^{edit} sedit
self-:
M t = H E V I S I D E T E P ( c t s r c , τ ) , ( 6 ) s t f u s e d = M t ⊙ s t s d i t + ( 1 ? M t ) ⊙ s t s r c . ( 7 ) \begin{} M_t =\{~}(c_t^{src},\tau), (6) \\ s_{t}^{\{fused}} =M_t\odot s_t^{\{sdit}}+(1-M_t)\odot s_t^{\{src}}. (7) \end{} Mt?=(ctsrc?,τ),(6)?=Mt?⊙?+(1?Mt?)⊙stsrc?.(7)?
mask由cross 得到:对edit word的cross 进行阈值处理
原因:cross 提供图像的语义层
- Self-
解决视频帧间不一致现象
将self-改为- Self-(时空自注意力)
z i z_{i} zi?的层实现为
Q = W Q z i , K = W K [ z i ; z w ] , V = W V [ z i ; z w ] , ( 8 ) Q=W^Q\{z}^i,K=W^K\left[\{z}^i;\{z}^{\{w}}\right],V=W^V\left[\{z}^i;\{z}^{\{w}}\right],(8) Q=WQzi,K=WK[zi;zw],V=WV[zi;zw],(8)
[ ? ] [\cdot] [?]指的是连接操作 , 只需要对中间帧进行warp操作( z w = z R o u n d [ n 2 ] \{z}^{\{w}}=z^{\{Round}[\frac{n}{2}]} zw=[2n?])就足够进行属性和样式编辑
Shape-Aware Video (形状感知视频编辑)
改变视频中特定物体的形状更具挑战性
study
没有self-的融合 , 难以保留原视频的一些细节
没有 mask原始吉普车的结构会影响生成的保时捷汽车