EMO

致力打造国内好用的AI产品导航平台

热搜榜 midjourney Suno AIGC Prompt Stable Diffusion Sora Runway AI 应用晋升

免费

EMO是阿里发布的一款生成具有表情丰富的面部表情视频的工具

链接直达视频介绍

标签：Github 开源项目 AI视频

开发者：阿里巴巴集团智能计算研究院

EMO一个富有表现力的音频驱动的纵向视频生成框架。输入单个参考图像和人声音频，例如说话和唱歌，我们的方法可以生成具有表现力的面部表情和各种头部姿势的人声头像视频，同时，我们可以根据输入视频的长度生成任何持续时间的视频。

输入筹备选定目标角色肖像作为参考，并导入音频文件，奠定视频创作基石。
特征抽取：ReferenceNet深度解析参考图像，提炼关键特征信息。
音频解析：预训练音频编码器精准提取音频特征，捕捉语音精髓，驱动表情与动作。
扩散去噪：主网络以噪声为起点，逐步去噪生成连续视频帧，Reference-Attention与Audio-Attention双管齐下，确保角色身份与动作协调。
时间调控：时间模块运用自注意力机制，精准把握视频动态，强化帧间连贯性。
定位与速度控制：面部定位器精准锁定面部区域，速度层灵活调整动作节奏，确保视频流畅自然。
分阶段训练：历经图像预训练、视频训练及速度层集成，层层递进，优化模型性能。
视频生成：在推理阶段，EMO使用DDIM采样算法生成视频片段。通过迭代去噪过程，最终生成与输入音频同步的肖像视频。