自动草稿

🗣️CyberVerse :一个开源数字人 Agent 平台,支持一张照片生成可实时视频通话的 AI 角色

CyberVerse 数字人 Agent 不是普通的聊天机器人套壳,而是一个能让你和 AI 数字人“打视频电话”的开源框架。它把大语言模型(LLM)、语音识别、语音合成、头像模型和 WebRTC 视频流全部缝合在一起,把枯燥的文字聊天,升级成带画面、有声音、口型同步的实时交互。

以前想要做这种带脸的、能实时互动的数字人,往往只能按分钟给昂贵的云端 SaaS 平台交钱。CyberVerse 提供了一套可自托管的底层架构,但部分语音能力(如默认配置中的豆包 Voice)仍可能依赖第三方 API 服务,实际部署时需要根据你自己的模型、接口和许可条件进行配置。

CyberVerse :一个开源数字人 Agent 平台,支持一张照片生成可实时视频通话的 AI 角色

但是,这不是一款面向普通用户的轻量工具。它对显卡算力、环境配置的要求都比较高,目前更像是给开发者、AI 产品团队和多模态交互研究者准备的技术原型,而不是一个低门槛的 SaaS 平替。

CyberVerse 数字人 Agent:从聊天框到实时视频通话

你随便去 GitHub 搜 AI 助手,大多都停留在文字互传阶段。CyberVerse 的核心区别在于它的实时流媒体通讯能力和组件化设计

它的工作流大概是这样的:你上传一张照片生成数字人形象 → 你对着麦克风说话 → 语音识别后交给大模型思考 → 生成文字并转换为语音 → 驱动数字人产生对应的面部动画和口型 → 最后通过 WebRTC 技术把这套音视频流实时推送到你的网页端

CyberVerse :一个开源数字人 Agent 平台,支持一张照片生成可实时视频通话的 AI 角色

为了让这套系统跑通,它把各个模块做成了可替换的插件,你可以通过修改 YAML 配置文件,把里面的 LLM 或 TTS 换成你需要的服务。

⚠ 注意:以下部分能力仍在 Roadmap 阶段:

包括:长期记忆跨会话、工具调用与工作流执行、多 Agent 协作网络、知识库 RAG 问答、直播输出、用户侧摄像头理解等。这些功能目前尚未完成,仍在计划开发中

部署情况:别光看开源免费,算力才是真正的成本

很多人看到“开源自托管”,第一反应是可以省钱。但如果你想把 CyberVerse 跑起来,真正的门槛在于较为复杂的开发环境,以及不低的 GPU 硬件成本。

CyberVerse :一个开源数字人 Agent 平台,支持一张照片生成可实时视频通话的 AI 角色

在环境配置上,你需要同时搞定 Python 3.10 、Node 18 、Go 1.22 ,并且点名要求 CUDA 12.8 和 PyTorch 2.8。你需要分三个终端分别拉起 Python 推理服务、Go API 服务和前端。

最核心的瓶颈在显卡:它不是一张 RTX 4090 就能随便满血跑的。

根据官方目前的硬件测试数据:如果使用参数量较小的 FlashHead Lite 面部模型,单张 RTX 4090 可以达到实时(25 FPS);但如果你想追求更好的画质,换上 FlashHead Pro 档位,单张 RTX 4090 的帧率会掉到约 10.8 FPS,尚不能流畅互动。如果上更大参数的 LiveAct 18B 模型,甚至需要 RTX PRO 6000 级别的显卡。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件、阿里云盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源