FateZero: Fusing Attentions for Zero _src

:for Zero-shot Text-based VideoShape-Aware Video (形状感知视频编辑) study
：使用预训练的t2i模型实现zero-shot 、text-based 视频编辑
：在上修改
【FateZero: Fusing Attentions for Zero】在反转过程中的每一步，存储self-与cross- maps（目的：能够在随后的ddim 的去噪步骤中替换它们）；
将自我注意块改造为时空注意块，目的：使外观更加一致
block
归纳总结：
做的什么任务，要达到什么目的，输入是什么，输出是什么？
zero-shot text-based video ，输入为原视频（及源），编辑，输出编辑后的图像通过什么方式实现的编辑或者生成，了解不同的方式有什么特点 DDIM
DDIM：
z t ? 1 = α t ? 1 z t ? 1 ? α t ε θ α t + 1 ? α t ? 1 ε θ , ( 2 ) z_{t-1}=\sqrt{\{t-1}}\frac{z_{t}-\sqrt{1-\{t}}\{\theta}}{\sqrt{\{t}}}+\sqrt{1-\{t-1}}\{\theta},\quad(2) zt?1?=αt?1??αt??zt??1?αt??εθ??+1?αt?1??εθ?,(2)
DDIM :
z ^ t = α t z ^ t ? 1 ? 1 ? α t ? 1 ε θ α t ? 1 + 1 ? α t ε θ . ( 3 ) \hat z_t=\sqrt{\}\frac{\hat z_{t-1}-\sqrt{1-\{t-1}}\\theta}{\sqrt{\{t-1}}}+\sqrt{1-\}\\theta.\quad(3) z^t?=αt??αt?1??z^t?1??1?αt?1??εθ??+1?αt??εθ?.(3)

文章插图
之前的工作：edit 与DDIM重建过程中的融合
：edit 与DDIM 过程中存储的融合
Video
是什么？ style and（v1.4）， shape （Tune a video）
如何？
anmask 如何获得？
首先将源视频编码的 z 0 z_{0} z0?输入DDIM ，得到 z T z_{T} zT? ，条件为 p s r c p_{src} psrc?（源视频）
将 z T z_{T} zT?逐步去噪，得到 z ^ 0 \hat{z}_0 z^0? ，以 p e d i t p_{edit} pedit?为条件
在DDIM 过程中，存储self- maps t s r c s_t^{src} stsrc? 与 crossmapc t s r c c_t^{src} ctsrc?
在去噪过程中，未编辑部分的cross 部分 c t e d i t c_t^{edit} ?用原始crossc t s r c c_t^{src} ctsrc? 替换（未编辑的部分保持原始的）用一种 anmask（自适应的空间掩码，由 c t s r c c_t^{src} ctsrc?获得）融合 s t s r c s_t^{src} stsrc?与 s t e d i t s_t^{edit} ?
Map
去掉修改后的self-：直接用 s s r c s^{src} ssrc替换 s e d i t s^{edit} sedit

文章插图
保留修改后的self-：保留 s e d i t s^{edit} sedit
self-：
M t = H E V I S I D E T E P ( c t s r c , τ ) , ( 6 ) s t f u s e d = M t ⊙ s t s d i t + ( 1 ? M t ) ⊙ s t s r c . ( 7 ) \begin{} M_t =\{~}(c_t^{src},\tau), (6) \\ s_{t}^{\{fused}} =M_t\odot s_t^{\{sdit}}+(1-M_t)\odot s_t^{\{src}}. (7) \end{} Mt?=(ctsrc?,τ),(6)?=Mt?⊙?+(1?Mt?)⊙stsrc?.(7)?
mask由cross 得到：对edit word的cross 进行阈值处理
原因：cross 提供图像的语义层
- Self-
解决视频帧间不一致现象
将self-改为- Self-（时空自注意力）
z i z_{i} zi?的层实现为
Q = W Q z i , K = W K [ z i ; z w ] , V = W V [ z i ; z w ] , ( 8 ) Q=W^Q\{z}^i,K=W^K\left[\{z}^i;\{z}^{\{w}}\right],V=W^V\left[\{z}^i;\{z}^{\{w}}\right],(8) Q=WQzi,K=WK[zi;zw],V=WV[zi;zw],(8)
[ ? ] [\cdot] [?]指的是连接操作，只需要对中间帧进行warp操作（ z w = z R o u n d [ n 2 ] \{z}^{\{w}}=z^{\{Round}[\frac{n}{2}]} zw=[2n?]）就足够进行属性和样式编辑
Shape-Aware Video (形状感知视频编辑)
改变视频中特定物体的形状更具挑战性
study
没有self-的融合，难以保留原视频的一些细节
没有 mask原始吉普车的结构会影响生成的保时捷汽车