由阿里巴巴集团智能计算研究院推出的创新技术——EMO(Emote Portrait Alive)。这是一个先进的AI系统,能够基于单一的参考图像和语音音频生成具有丰富表情和多样头部姿势的肖像视频。EMO技术捕捉人类表情的细微差别和个体面部风格的多样性,创造出高度逼真和表现力的动画。
主要功能和产品特色
- 音频驱动的视频生成:直接从音频生成视频,无需中间3D模型或面部标记。
- 高表现力和逼真度:捕捉并再现人类面部表情的细微差别,包括微妙的微表情。
- 无缝帧过渡:确保视频帧之间的过渡自然流畅。
- 身份保持:通过FrameEncoding模块保持角色身份的一致性。
- 稳定的控制机制:采用速度控制器和面部区域控制器增强稳定性。
- 灵活的视频时长:根据输入音频的长度生成任意时长的视频。
需求人群
- 电影和视频制作:为角色生成逼真的面部表情和动作。
- 游戏开发者:创造具有丰富表情的虚拟角色。
- 社交媒体用户:生成个性化的视频内容。
- 广告和营销:制作吸引人的视频广告。
使用场景示例
- 社交媒体:用户可以使用EMO生成带有自己面部表情的唱歌或说话视频。
- 教育和培训:生成教育内容,如历史人物的演讲。
- 虚拟助手:提供更加自然和人性化的交互体验。
费用定价
EMO项目目前仅用于学术研究和效果展示,尚未商业化,因此没有明确的定价。
官方资源:
- 官方项目主页:https://humanaigc.github.io/emote-portrait-alive/
- arXiv研究论文:https://arxiv.org/abs/2402.17485
- GitHub:https://github.com/HumanAIGC/EMO(模型和源码待开源)