首页 > AI教程资讯

ChatAnyone：阿里发布的通过音频输入生成具有丰富表情和上半身动作的肖像视频

文章来源：08AI导航网发布时间：2025-04-10 10:46:45

ChatAnyone 是什么？

ChatAnyone 是一个由阿里巴巴集团通义实验室开发的实时风格化肖像视频生成框架，实现从“会说话的头”到上半身互动的高保真动画生成，支持多样化的面部表情和风格控制。适用于实时视频聊天、虚拟主播、ai 助手等场景。

ChatAnyone：阿里发布的通过音频输入生成具有丰富表情和上半身动作的肖像视频.webp

ChatAnyone 技术方法

高效分层运动扩散模型（Hierarchical Motion Diffusion Model）

输入：音频信号。

输出：面部和身体的控制信号，考虑显式和隐式的运动信号。

功能：生成多样化的面部表情，并实现头部与身体动作的同步。

细粒度表情控制：支持不同强度的表情变化，以及从参考视频中转移风格化的表情。

混合控制融合生成模型（Hybrid Control Fusion Generative Model）

面部表情生成：结合显式地标和隐式偏移量，生成逼真的面部表情。

手部动作控制：注入显式的手部控制信号，生成更准确和逼真的手部动作。

面部优化模块：增强面部的逼真度，确保生成的肖像视频具有高度的表达性和真实感。

可扩展的实时生成框架

灵活性：支持从头部驱动的动画到包含手势的上半身生成。

实时性：在 4090 GPU 上，以最高 512×768 分辨率、30fps 的速度实时生成上半身肖像视频。

ChatAnyone 实验结果

音频驱动的上半身动画：生成具有高度表达性的上半身数字人视频，支持有手和无手的场景。

音频驱动的头部动画：实现高精度的口型同步，生成自然的头部姿势和丰富的面部表情。

音频驱动的风格化动画：支持生成风格化角色的动画，同时适用于生成富有表现力的唱歌视频。

双主持 AI 播客演示：能够生成双主持播客，支持 AI 驱动的对话。

实时交互演示：在 4090 GPU 上实现 30fps 的实时生成，支持实际的交互式视频聊天应用。

ChatAnyone：阿里发布的通过音频输入生成具有丰富表情和上半身动作的肖像视频.webp

ChatAnyone 优势

高保真度和自然度：生成的肖像视频具有丰富的表情和自然的上半身动作。

实时性：支持实时交互，适用于视频聊天等应用场景。

风格化控制：可以根据需求调整表情风格，实现个性化的动画生成。

ChatAnyone 的应用场景

虚拟主播与视频会议

虚拟主播用于新闻播报、直播带货。

视频会议中提供虚拟形象，增强互动性。

内容创作与娱乐

动画制作：生成风格化动画角色。

虚拟演唱会：生成虚拟歌手或表演者的实时动画。

AI 播客：生成双主持播客的虚拟形象。

教育与培训

在线教育：生成虚拟教师形象。

培训模拟：生成虚拟角色进行互动对话。

客户服务

智能客服：生成虚拟客服形象。

客户互动：提供生动的解答和互动。

营销与广告

虚拟代言人：生成品牌代言人形象。

广告视频：生成互动性强的广告内容。

社交娱乐

匿名聊天：生成虚拟形象保护隐私。

社交平台：生成个性化虚拟形象。

医疗健康

虚拟健康咨询：生成虚拟医生形象。

康复训练：生成虚拟康复教练。

其他

虚拟导游：用于旅游规划和景点介绍。

新闻播报：生成虚拟新闻主播。

ChatAnyone 的应用场景.webp

相关链接

项目地址：https://github.com/HumanAIGC/chat-anyone

论文地址：https://arxiv.org/abs/2506.00920

科大讯飞发布星火大模型，打造自然语言处理新高度

上一篇: 科大讯飞发布星火大模型，打造自然语言处理新高度

5月6日，科大讯飞在安徽合肥举行了“讯飞星火认知大模型”发布会，推出了自然语言处理领域的最新成果——星火大模型。这是目前国内最大、最全面、最智能的自然语言处理预训练模型，覆盖超过30种任务的强大能力。

ChatGPT突破界限：新增联网特性，为App用户带来前所未有的体验！

下一篇: ChatGPT突破界限：新增联网特性，为App用户带来前所未有的体验！

这是AI应用商店的重要时刻，AI迎来了与"iPhone"时代相媲美的里程碑。现在，AI也有了自己的应用商店，这意味着用户可以轻松获取AI应用。无论是开发人员还是用户，都能从中获得极大的便利与创造力。AI应用商店的出现将推动AI技术的进一步普及与应用。

相关攻略更多

热门AI工具更多

最新资讯更多

Framer-成功从网站开始

Framer-成功从网站开始

AI工具

更新时间：2025-02-25