CyberVerse ：一个开源数字人 Agent 平台，支持一张照片生成可实时视频通话的 AI 角色

自动草稿

🗣️CyberVerse ：一个开源数字人 Agent 平台，支持一张照片生成可实时视频通话的 AI 角色

CyberVerse 数字人 Agent 不是普通的聊天机器人套壳，而是一个能让你和 AI 数字人“打视频电话”的开源框架。它把大语言模型（LLM）、语音识别、语音合成、头像模型和 WebRTC 视频流全部缝合在一起，把枯燥的文字聊天，升级成带画面、有声音、口型同步的实时交互。

以前想要做这种带脸的、能实时互动的数字人，往往只能按分钟给昂贵的云端 SaaS 平台交钱。CyberVerse 提供了一套可自托管的底层架构，但部分语音能力（如默认配置中的豆包 Voice）仍可能依赖第三方 API 服务，实际部署时需要根据你自己的模型、接口和许可条件进行配置。

CyberVerse ：一个开源数字人 Agent 平台，支持一张照片生成可实时视频通话的 AI 角色

但是，这不是一款面向普通用户的轻量工具。它对显卡算力、环境配置的要求都比较高，目前更像是给开发者、AI 产品团队和多模态交互研究者准备的技术原型，而不是一个低门槛的 SaaS 平替。

CyberVerse 数字人 Agent：从聊天框到实时视频通话

你随便去 GitHub 搜 AI 助手，大多都停留在文字互传阶段。CyberVerse 的核心区别在于它的实时流媒体通讯能力和组件化设计。

它的工作流大概是这样的：你上传一张照片生成数字人形象 → 你对着麦克风说话 → 语音识别后交给大模型思考 → 生成文字并转换为语音 → 驱动数字人产生对应的面部动画和口型 → 最后通过 WebRTC 技术把这套音视频流实时推送到你的网页端。

CyberVerse ：一个开源数字人 Agent 平台，支持一张照片生成可实时视频通话的 AI 角色

为了让这套系统跑通，它把各个模块做成了可替换的插件，你可以通过修改 YAML 配置文件，把里面的 LLM 或 TTS 换成你需要的服务。

⚠ 注意：以下部分能力仍在 Roadmap 阶段：

包括：长期记忆跨会话、工具调用与工作流执行、多 Agent 协作网络、知识库 RAG 问答、直播输出、用户侧摄像头理解等。这些功能目前尚未完成，仍在计划开发中

部署情况：别光看开源免费，算力才是真正的成本

很多人看到“开源自托管”，第一反应是可以省钱。但如果你想把 CyberVerse 跑起来，真正的门槛在于较为复杂的开发环境，以及不低的 GPU 硬件成本。

CyberVerse ：一个开源数字人 Agent 平台，支持一张照片生成可实时视频通话的 AI 角色

在环境配置上，你需要同时搞定 Python 3.10 、Node 18 、Go 1.22 ，并且点名要求 CUDA 12.8 和 PyTorch 2.8。你需要分三个终端分别拉起 Python 推理服务、Go API 服务和前端。

最核心的瓶颈在显卡：它不是一张 RTX 4090 就能随便满血跑的。

根据官方目前的硬件测试数据：如果使用参数量较小的 FlashHead Lite 面部模型，单张 RTX 4090 可以达到实时（25 FPS）；但如果你想追求更好的画质，换上 FlashHead Pro 档位，单张 RTX 4090 的帧率会掉到约 10.8 FPS，尚不能流畅互动。如果上更大参数的 LiveAct 18B 模型，甚至需要 RTX PRO 6000 级别的显卡。