致力打造国内好用的AI产品导航平台
开发者:国内团队
音效是电影和游戏的无名英雄,可增强真实感、冲击力和情感深度,带来身临其境的视听体验。FoleyCrafter 是一个视频到音频生成框架,可以产生语义相关并与视频同步的逼真声音效果。
我们研究了神经拟音,即自动生成与视频同步的高质量音效,从而实现身临其境的视听体验。尽管应用范围广泛,但现有方法在同时合成高质量和视频对齐(即语义相关和时间同步)声音时遇到了局限性。为了克服这些限制,我们提出了FoleyCrafter,这是一个新颖的框架,它利用预先训练的文本到音频模型来确保高质量的音频生成。
FoleyCrafter 由两个关键组件组成:用于语义对齐的语义适配器和用于精确音视频同步的时间控制器。语义适配器利用并行交叉注意力层来调节视频特征的音频生成,从而产生与视觉内容语义相关的逼真声音效果。同时,时间控制器集成了起始检测器和基于时间戳的适配器,以实现精确的音视频对齐。
FoleyCrafter 的一个显着优势是它与文本提示的兼容性,能够使用文本描述根据用户意图实现可控和多样化的视频到音频生成。我们在标准基准上进行了广泛的定量和定性实验,以验证FoleyCrafter的有效性。模型和代码可在 Github 上找到。