首个开源数字人 Agent 框架,打造你的专属“老婆” - V2EX
爱意满满的作品展示区。
dsd2077

首个开源数字人 Agent 框架,打造你的专属“老婆”

  •  2
     
  •   dsd2077
    PRO
    dsd2077 7 days ago 7427 views
    hello ,我又来啦,距离上次发帖过去 28 天,我的开源项目在 github 收获了 554 颗 star ,我看了后台,前期大部分的流量都来自 V 站,这时必须喊一句 V 站牛逼,并且真心感谢 V 佬们,高低给各位磕一个。
    回顾贴: t1207445

    由于上次发帖匆忙,只说了三句话,确实没有好好介绍一下这个项目(导致很多 V 友只关心能不能脱衣服,我先声明我不知道,大家可以自己去试一下)。经过一个月的迭代和思考,我想重新认真的介绍一下这个项目。

    BG:得益于开源数字人模型性能的不断提升,现在仅用消费级显卡就能做到和数字人进行实时视频通话。

    CyberVerse 是一个开源的实时数字人 Agent 框架。

    这张图解释了什么是数字人 Agent ,看不懂也没关系,大概可以理解为 openclaw+豆包。

    总之通过 CyberVerse ,仅需一张照片,就可以和任何你喜欢的角色进行实时视频聊天,亦或者创建自己的数字分身,甚至还能指挥 ta 帮你干一点活。





    上面说的这些是 CyberVese 已经做到的事情,但仅仅如此是不足以称之为“CyberVerse”的,CyberVerse 的愿景是构建一个由数字分身 agent 组成的网络。听起来是不是很大胆?梦想还是要有的,万一实现了呢?也许大概有点像电影《头号玩家》中的绿洲,或者是扎克伯格梦寐以求的 MetaVerse? anyway ,概念并不重要,重要的是一定会变得好玩。

    总结一下:
    openClaw + 豆包 = 贾维斯
    贾维斯 * n = CyberVerse
    大概是这个意思吧。

    项目地址:
    https://github.com/dsd2077/CyberVerse

    如果觉得项目不错的话,求求各位大佬给个 star 吧。
    如果对这个项目感兴趣的话,也欢迎提 PR 、提 issue 、提需求。

    说了这么多,不发点美图,怎么能对得起大家的时间呢




    Supplement 1    7 days ago
    43 replies    2026-05-26 15:44:58 +08:00
    nanxiaobei
        1
    nanxiaobei  
       7 days ago
    感觉挺不错的,这个 kanshan 是和知乎合作的吗?
    dsd2077
        2
    dsd2077  
    OP
    PRO
       7 days ago via Android
    @nanxiaobei 看山这个是打知乎黑客松比赛的时候做的。
    ndxxx
        3
    ndxxx  
       7 days ago via Android
    你那张黑白的说明图是用什么 prompt 生成的呀
    AlangHa
        4
    AlangHa  
       7 days ago   1
    优秀
    dsd2077
        5
    dsd2077  
    OP
    PRO
       7 days ago
    @ndxxx #3 这张图是手画的,附言中那张图才是 AI 画的
    itechify
        6
    itechify  
    PRO
       6 days ago
    居然能看到脚滑的小子!
    Frankcox
        7
    Frankcox  
       6 days ago
    怎么处理 AI 遵循角色的语气语言风格呢?还有思维模式?类似酒馆专门写思维链吗?
    cirzear
        8
    cirzear  
       6 days ago
    消费级显卡就行吗,那得关注一下了
    dsd2077
        9
    dsd2077  
    OP
    PRO
       6 days ago
    @itechify #6 嗯?是不是看错了(狗头)
    dsd2077
        10
    dsd2077  
    OP
    PRO
       6 days ago
    @Frankcox #7 主要还是靠模型和系统提示词吧,系统提示词分的比较细,模型用现在的实时语音大模型,这些模型都是为对话训练的,所以基本上不会产生风格偏移
    itechify
        11
    itechify  
    PRO
       6 days ago
    @dsd2077 说出这句话的骨哥
    dsd2077
        12
    dsd2077  
    OP
    PRO
       6 days ago
    @itechify #11 哈哈哈 不知道玄骨外传啥时候能上了
    Frankcox
        13
    Frankcox  
       6 days ago
    @dsd2077 #10 我也在做拟人类角色扮演 agent ,但是 system prompt 控制角色语气风格这块不大好处理,要么过于刻板印象化(张口闭带原角色的事情经历)要么就看不出人物个性。
    fcvi44
        14
    fcvi44  
       6 days ago
    一段视频重复播放,FFmpeg 只是让五官和头部动了起来,有点恐怖谷
    YanSeven
        15
    YanSeven  
       6 days ago via Android
    这个东西要是能搞成 3D 投影动画就好玩了,这可以搞一个专门的圆柱形的硬件设备,中间是各种什么玻璃啊乱七八糟的,数字人 3D 投影到中间的玻璃里面,动态和人交互。
    dsd2077
        16
    dsd2077  
    OP
    PRO
       6 days ago
    @Frankcox #13 这么一说我想起来了,之前跟蒂法聊,她就老是说第七天堂、喝一杯之类的话,这个跟人物背景、场景设定有关系,后来我改了一下就好多了。
    burp2019
        17
    burp2019  
       6 days ago
    @YanSeven 想想就酷,进一步升级,打造一个硅胶身体,Agent 随时可以从圆柱形设备蓝牙连接到身体上,实现鬼上身
    dsd2077
        18
    dsd2077  
    OP
    PRO
       6 days ago
    @YanSeven #15 全系投影!这个将来应该会有人做,目前这种应用场景主要是 toB ,很少有 toC 的产品。技术再进一步就是《银翼杀手》的 Joi 了。
    dsd2077
        19
    dsd2077  
    OP
    PRO
       6 days ago
    @burp2019 #17 U 航-首形科技 了解一下
    kakakakaka8889
        20
    kakakakaka8889  
       6 days ago
    说话能对嘴型吗?
    dsd2077
        21
    dsd2077  
    OP
    PRO
       6 days ago via Android
    @kakakakaka8889 能对上,这是数字人最基本的要求
    pandasoda
        22
    pandasoda  
       6 days ago
    女性群体对于这一块是比较感兴趣的,市面上也有商业化的程序,但是国家在打击这一块 商业化比较困难
    dsd2077
        23
    dsd2077  
    OP
    PRO
       6 days ago
    @pandasoda #22 你说的应该是类似 character.ai 、星野以及酒馆那种,但是那种跟我这个完全不是回事,那个就是文字游戏,最多加点语音。
    langhuishan
        24
    langhuishan  
       6 days ago
    @YanSeven 银翼杀手 投影到咯咯哒身上
    thedog
        25
    thedog  
       5 days ago
    @dsd2077 附言中的这张图的 prompt 是什么呀?
    dsd2077
        26
    dsd2077  
    OP
    PRO
       5 days ago
    @thedog #25 这是网友帮我生成的,我也不太清楚,你可以试试直接把这个图丢给 gpt ,让它写出 prompt
    arcsin1
        27
    arcsin1  
       4 days ago   1
    很赞!
    miryue
        28
    miryue  
       3 days ago
    诶我是不是在 B 站沐神看到过你 doge
    dsd2077
        29
    dsd2077  
    OP
    PRO
       3 days ago
    @miryue #28 是滴,行业前沿动态肯定不能错过
    jacketma
        30
    jacketma  
       2 days ago
    这个感觉有点用不起啊,实时语音模型都贵的要死
    dsd2077
        31
    dsd2077  
    OP
    PRO
       2 days ago via Android
    @jacketma 是的,现在主要是给行业内的人/爱好者用,目前还没有办法普及到普通消费者。把时间交给将来吧,算力肯定会下降的。
    gardenqaq
        32
    gardenqaq  
       1 day ago
    已 star ,请问下大佬,手势是怎么支持的,学习一下。
    dsd2077
        33
    dsd2077  
    OP
    PRO
       1 day ago via Android
    @gardenqaq 你是说用户手势的识别,还是数字人的这个手部动作?
    ddshub
        34
    ddshub  
       1 day ago
    支持自定义供应商么?比如 flux/mj 这种
    november
        35
    november  
       1 day ago via iPhone
    哪些数据是保存本地?哪些数据是提交第三方服务的?使用第三方服务的地方能不能支持使用本地?
    gardenqaq
        36
    gardenqaq  
       1 day ago
    @dsd2077 数字人的手部动作,支持音频驱动不?
    dsd2077
        37
    dsd2077  
    OP
    PRO
       1 day ago via Android
    @ddshub 这个项目是实时数字人,没法接 flux mj
    dsd2077
        38
    dsd2077  
    OP
    PRO
       1 day ago via Android   1
    @november 数字人相关的部分数据都是存在本地的,角色图片和生成的视频。需要用到第三方服务的地方是 LLM/TTS/ASR 。理论上这些都可以使用本地模型,但目前还没支持。
    dsd2077
        39
    dsd2077  
    OP
    PRO
       1 day ago via Android
    @gardenqaq 数字人的手部动作是由数字人模型根据输入语音生成的,用户无法控制。
    这个功能已经有闭源的模型支持了,估计开源模型也会很快跟上。
    PbCopy111
        40
    PbCopy111  
       8h 56m ago
    不懂就问,这个跟我再豆包上建立一个智能体有什么区别??
    dsd2077
        41
    dsd2077  
    OP
    PRO
       8h 28m ago
    @PbCopy111 #40
    两个区别:
    1. 豆包是文字/语音聊天,虽然可以接受用户侧的视频输入,但豆包那一侧是没有视频输出的,Cyberverse 做的是视频聊天
    2. 豆包上的智能体就是个是加了点 prompt 的 chatbot ,在 Cyberverse 中创建的角色是真正的 Agent
    ndxxx
        42
    ndxxx  
       6h 58m ago via Android
    知乎吉祥物那个 demo 用的是 liveact ?这个模型+对口型的实时算力要求 5090 单卡都够呛吧
    dsd2077
        43
    dsd2077  
    OP
    PRO
       4h 0m ago
    @ndxxx #42 嗯,liveact 需要 PRO6000 才能跑
    About     Help     Advertise     Blog     API     FAQ     Solana     3279 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 91ms UTC 11:45 PVG 19:45 LAX 04:45 JFK 07:45
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86