怎么看待 voice agent 这个交互形态 - V2EX
LuliYanng

怎么看待 voice agent 这个交互形态

  •  
  •   LuliYanng May 31 1306 views
    最近这一年的语音技术,包括 stt 和 tts 发展的都很快,市面上也出现了想 typeless 这类 voice 的 ai 产品形态,但是像是电影里面那种 jarvis 或者 samantha 形态的产品似乎还没怎么出现。

    想问问 v 友们是怎么看待语音交互这种形态的,类似的场景可能是如果有一封邮件进来,然后直接说一句话,ai 就能帮你处理好这样。但是语音这种低信息密度的形式,能够支撑这样的产品吗?我对这些还是挺疑惑的。
    7 replies    2026-06-01 23:41:45 +08:00
    teaguexiao
        1
    teaguexiao  
       May 31
    语音目前更适合低认知负担的场景,比如记录碎片想法、简单指令,而不是处理复杂任务。Jarvis 那种形态难点不在语音识别,而在 AI 真正理解上下文并自主执行多步操作。
    vitoaaazzz
        2
    vitoaaazzz  
       May 31
    信息密度太低
    LuliYanng
        3
    < href="/member/LuliYanng" class="dark">LuliYanng  
    OP
       May 31
    @teaguexiao 是啊 最近在思考 voice agent 这个形态的时候,很明显能感觉到的一个交互上的问题就是,人类口头的输出都是模糊语义的 不想打字那样还能在组织语言的过程中丰富信息密度。感觉这种形态还很难能够从 demo 到一个世纪可用产品的落地
    May725
        4
    May725  
       May 31
    这让我想起来前几天 vide coding 时, 意识到文字不能很好的表达说话的语气.
    例如反问语气 “怎么把我的.git 删了?", ai 认为我让它把.git 删除
    LuliYanng
        5
    LuliYanng  
    OP
       3 days ago
    @May725 你是用文字打的这句话吗? ai 这也能误解了吗
    fredweili
        6
    fredweili  
       3 days ago
    做这个的门槛太低了,livekit 有整套的解决方案,但是能干啥呢?又一个 chatbot?
    LuliYanng
        7
    LuliYanng  
    OP
       2 days ago
    @fredweili 是这样的,但看起来很割裂的,明明技术上已经可行,门槛也很低了,但是目前位置也没有一个产品跑出来,所以在想到底是什么问题?是这种交互形态导致的,还是说虽然技术门槛低了,但是始终没有一个好的产品形态能够被商业化?主要的问题在这些方面
    About     Help     Advertise     Blog     API     FAQ     Solana     5292 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 412ms UTC 06:00 PVG 14:00 LAX 23:00 JFK 02:00
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86