语音识别都有开源的模型了,商业化的 API 意义在哪里? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bushnerd
V2EX    问与答

语音识别都有开源的模型了,商业化的 API 意义在哪里?

  •  
  •   bushnerd 206 天前 via iPhone 4520 次点击
    这是一个创建于 206 天前的主题,其中的信息可能已经有所发展或是发生改变。

    之前一直使用讯飞的 PC 语音输入法,最近发现一些模型比如 https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 还有 whisper 的效果也很不错。 还有使用豆包用的多,大概用了半年,语音识别体感上几乎没有任何错误。

    那么科大讯飞的语音识别好像没啥太大意义啊?这么快就被超越了?

    31 条回复    2025-04-02 08:54:14 +08:00
    evill
        1
    evill  
       206 天前
    有部分需要这个功能的人,他们不具有部署模型的能力。
    成本问题,部署模型是固定的高成本,接 API 按量付费。
    接 API 省心,不用运维模型 不关心模型升级(顶多换个 API)
    xiaoqidev
        2
    xiaoqidev  
       206 天前
    API 有返点,甚至 50% 以上
    zero47
        3
    zero47  
       206 天前
    这不就是 saas 的意义吗,个人使用频率低,性价比不高。企业要考虑扩容,维护成本大。
    AndrewCotton
        4
    AndrewCotton  
       206 天前
    目前的模式看,有点类似云服务刚刚开始假设,所有公司跑马圈地的时候。不论是 chatgpt 或者 deepseek ,都是从 llm 发展出来的模型。确实有开源模型。但是:
    1. 不论是不是开源,维护这种模型的效果都需要人力物力成本。
    2. 现在免费的 API 不代表永远免费。
    3. 公司的商业业务不能因为免费 API 收费了就破产。
    4. 商业化 API 融资嘎嘎快。
    以上。
    infreboot
        5
    infreboot  
       206 天前   1
    开源是为了更好的做商业。
    dzdh
        6
    dzdh  
       206 天前
    100 并发部署 whisper-large-v3-turbo 。
    粗算一下 假设 4u 服务器 4 ~ 5 块高性能起码 6GB 显存的 GPU 、CPU 、足够内存 SSD 。最低最低离谱到没边的价格,15 万,稍微好点的大几十。
    一年托管费电信百兆单线 2 万。

    现在阿里/腾讯/华为/火山一个接口。语音识别 0.00015 元/秒 / 0.00008 元/秒 https://help.aliyun.comzh/model-studio/getting-started/models#9e21336740rk2

    你自己说你做个产品用哪个方案(除了军政央医)。3 天能出产品快速试错,新账号还送几小时的额度。
    ala2008
        7
    ala2008  
       206 天前
    有资源当然可以私有部署,但和云服务器一样,运维什么的是一个问题。不得不说,开源真棒
    yplam
        8
    yplam  
       206 天前
    降低边缘设备成本,这样几十元的玩具都可以接入大模型,然后每年收你几十元会员费,非常好的商业模式。
    Goooooos
        9
    Goooooos  
       206 天前
    个人用户偶尔用用,还得花几万买社保自己部署吗?
    bluesenzhu
        10
    bluesenzhu  
       206 天前
    另外一个角度是:类似开源和闭源软件
    Nosub
        11
    Nosub  
       206 天前   1
    知乎上有一句,我觉得是对的,先问是不是,再问为什么。

    抛开成本,使用接入的便利性不谈,

    首先在线语音识别 API 比开源大模型早,这个答案就是回答了你的问题,

    七八年前讯飞语音识别 API 就有了,七八年前有 funasr 和 whisper 吗。

    你这个逻辑就是剪映这么好,为什么还需要什么其他字幕软件一个逻辑。
    showonder
        12
    showonder  
       206 天前
    方便
    你要喝牛奶,自己养一头牛每公斤牛奶成本不到 3 块钱,还新鲜,但是你为啥在超市买 10 块钱一公斤的牛奶呢?
    KIRAYOMATO
        13
    KIRAYOMATO  
       206 天前 via Android
    我目前用下来识别最准确的还是剪映,whisper 和 paraformer 准确性都差很多
    Nosub
        14
    Nosub  
       206 天前
    多说一句,我最近一直在实现 funasr 的本地化移植工作( Windows/Linux/Macos ),也算支持下国产大模型,毕竟支持 whisper 的客户端太多了,支持 funasr 的几乎没有,我之前一直不愿意接入本地模型就是因为使用成本太高,一个模型动辄几个 GB ,ct-punc mode ,asr-model ,vad-mode 加起来差不多有 3 个 GB ,连放在哪儿储存给用户下载使用都是个问题,当然这是开发者应该解决的事情,储存成本和使用成本,哪个不是成本。
    JackMaMa
        15
    JackMaMa  
    PRO
       206 天前
    @xiaoqidev 讯飞有吗?想要
    bushnerd
        16
    bushnerd  
    OP
       206 天前 via iPhone
    好像是我问的问题不对,我的意思是讯飞的智能语音的护城河在哪里?如果一些小企业把这模型拿去,也去部署一个对外服务,可以说研发成本几乎为 0 啊。
    coefu
        17
    coefu  
       206 天前
    @bushnerd whisper 在带地方乡音不标准的普通话下,识别率很低。你知道的,大家大部分能把普通话说到二级甲等的都很少了。
    coefu
        18
    coefu  
       206 天前
    @bushnerd 大厂的模型都是针对性优化的,你看王者荣耀的语音识别,就是纯地方方言乡音的识别率都很高的。开源的没有经过任何微调的 whisper 比得过?
    mingtdlb
        19
    mingtdlb  
       206 天前
    你这问题就像都有私有云了,还有公有云干嘛
    yufeng0681
        20
    yufeng0681  
       206 天前
    @bushnerd #16 隐私,信息安全,可靠性,客服体验。。商业化的事情,不能只看技术能力。 你作为一家企业去选择 API 的时候,就会综合考虑。不仅仅考虑价格维度。
    paradoxs
        21
    paradoxs  
       206 天前
    求问一下:现在哪个开源的 OCR 模型做的最好?最容易接入使用的?
    noobjalen
        22
    noobjalen  
       206 天前
    请问有没有现成的 GUI 推荐呢。
    noobjalen
        23
    noobjalen  
       206 天前
    adgfr32
        24
    adgfr32  
       206 天前 via Android
    @bushnerd 开源模型效果达不到,只是毛坯,在模型能力之上还要做一些工程化。
    而且你自己部署成本可不一定比讯飞的低,只是模型免费,显卡人力也要钱,讯飞内部的调度可以节省算力闲置造成的浪费。
    adgfr32
        25
    adgfr32  
       206 天前 via Android
    而且讯飞内部对一些大客户肯定是做了订制优化单独训的模型。
    开源模型只对一些轻度用户是满足的,而这个客户群体用 api 更合适。反而是大量使用的用户有订制离线部署的需求。
    jeray
        26
    jeray  
       206 天前
    聊天的语音识别很简单;
    比如涉会议,各个领域会议,专业词汇,音频识别文字技术,普通模型就不行了。但是这块,科大讯飞依旧很能打
    takeit
        27
    takeit  
       206 天前
    开源模型没你想象得这么美好
    NoOneNoBody
        28
    NoOneNoBody  
       206 天前
    商业模型在专业领域是更强的
    一篇化学论文宣读,试试开源模型和商业模型比较?

    例如粤语,广府粤语和港式粤语用词就有不少区别,还有广东其他地区的粤语,如顺德话,还有广西的粤语,母语非粤语的人根本听不出来区别在哪
    我一个听不懂吴语的人,更别说搞清苏北话和苏州话的区别了
    ysc3839
        29
    ysc3839  
       205 天前
    无 GPU 环境,比如各类云服务部署的情况
    jeesk
        30
    jeesk  
       205 天前
    1. 开源的相册那么多, 买 icloud, google driver 的意义在哪儿?
    qbmiller
        31
    qbmiller  
       192 天前
    淘宝 AI 玩具,好几款, 看都永久免费豆包。 他们怎么拿的 api ?
    有个《轻语 AI 》 . 还有家 《 AI 芯片模块方案 接定制》。 火山引擎官网能有免费 api 吗
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3683 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 10:21 PVG 18:21 LAX 03:21 JFK 06:21
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86