
🗣️CyberVerse :一个开源数字人 Agent 平台,支持一张照片生成可实时视频通话的 AI 角色
CyberVerse 数字人 Agent 不是普通的聊天机器人套壳,而是一个能让你和 AI 数字人“打视频电话”的开源框架。它把大语言模型(LLM)、语音识别、语音合成、头像模型和 WebRTC 视频流全部缝合在一起,把枯燥的文字聊天,升级成带画面、有声音、口型同步的实时交互。
以前想要做这种带脸的、能实时互动的数字人,往往只能按分钟给昂贵的云端 SaaS 平台交钱。CyberVerse 提供了一套可自托管的底层架构,但部分语音能力(如默认配置中的豆包 Voice)仍可能依赖第三方 API 服务,实际部署时需要根据你自己的模型、接口和许可条件进行配置。

但是,这不是一款面向普通用户的轻量工具。它对显卡算力、环境配置的要求都比较高,目前更像是给开发者、AI 产品团队和多模态交互研究者准备的技术原型,而不是一个低门槛的 SaaS 平替。
CyberVerse 数字人 Agent:从聊天框到实时视频通话
你随便去 GitHub 搜 AI 助手,大多都停留在文字互传阶段。CyberVerse 的核心区别在于它的实时流媒体通讯能力和组件化设计。
它的工作流大概是这样的:你上传一张照片生成数字人形象 → 你对着麦克风说话 → 语音识别后交给大模型思考 → 生成文字并转换为语音 → 驱动数字人产生对应的面部动画和口型 → 最后通过 WebRTC 技术把这套音视频流实时推送到你的网页端。

为了让这套系统跑通,它把各个模块做成了可替换的插件,你可以通过修改 YAML 配置文件,把里面的 LLM 或 TTS 换成你需要的服务。
⚠ 注意:以下部分能力仍在 Roadmap 阶段:
包括:长期记忆跨会话、工具调用与工作流执行、多 Agent 协作网络、知识库 RAG 问答、直播输出、用户侧摄像头理解等。这些功能目前尚未完成,仍在计划开发中
部署情况:别光看开源免费,算力才是真正的成本
很多人看到“开源自托管”,第一反应是可以省钱。但如果你想把 CyberVerse 跑起来,真正的门槛在于较为复杂的开发环境,以及不低的 GPU 硬件成本。

在环境配置上,你需要同时搞定 Python 3.10 、Node 18 、Go 1.22 ,并且点名要求 CUDA 12.8 和 PyTorch 2.8。你需要分三个终端分别拉起 Python 推理服务、Go API 服务和前端。
最核心的瓶颈在显卡:它不是一张 RTX 4090 就能随便满血跑的。
下载链接见右侧按钮
声明:1、学神资源吧资源均通过互联网公开合法渠道获取,资源价格仅代表资源收集整理的费用,绝不代表原作品本身的价值。资源仅供阅读测试,请在下载后24小时内删除,谢谢合作!2、由于部分资源中不可避免的存在一些敏感关键词,如果购买后提示网盘资源链接失效,或者提示此类资源无法分享的情况,您无需担心,只需要联客服联系为您补发资源即可。
3、版权归原作者或出版方所有,本站不对涉及的版权问题负法律责任。若版权方认为学神资源吧侵权,请联系客服或发送邮件处理。。。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理,微信: xueshen2025。








