给定一对关键帧作为输入,我们的方法通过调整预训练的图像到视频扩散模型来生成具有连贯运动的连续中间视频。

我们提出了一种在一对输入关键帧之间生成具有连贯运动的视频序列的方法。我们将预训练的大规模图像到视频扩散模型(最初训练为从单个输入图像生成时间向前移动的视频)进行关键帧插值,即在两个输入帧之间生成视频。我们通过一种轻量级的微调技术来完成这种适应,该技术会生成一个模型版本,该模型版本会从单个输入图像预测视频在时间上向后移动。此模型(以及原始的向前移动模型)随后用于双向扩散采样过程,该过程结合了从两个关键帧中的每一个开始的重叠模型估计值。我们的实验表明,我们的方法优于现有的基于扩散的方法和传统的帧插值技术。

该管道包括三个阶段: (1) 前向运动预测:我们首先对第一个输入图像(推理阶段)或视频中的第一帧(微调阶段)进行调节,并将噪声潜在数据输入到预先训练的 3D UNet 中,以获得噪声预测,以及时间自我注意力图。 (2) 向后移动预测:我们沿时间轴反转噪声潜伏,然后我们对第二个输入图像或视频中的最后一帧以及 180 度旋转的时间自我注意力图进行调节,并通过微调的 3D UNet 提供给它们以进行向后移动预测。 (3) 融合和更新:预测的向后运动噪声再次反转,与向前运动噪声融合,从而产生一致的运动路径。请注意,只有时间自注意力层(绿色)中的值和输出投影矩阵会进行微调。

© 版权声明

相关文章

返回顶部