请问 V 友,语音转文字的事情。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mylastfire
V2EX    问与答

请问 V 友,语音转文字的事情。

  •  
  •   mylastfire 2023-12-08 09:50:20 +08:00 1546 次点击
    这是一个创建于 678 天前的主题,其中的信息可能已经有所发展或是发生改变。
    工作需要,经常要把语音讲话转为文字。想请教大家,一是自己搭建个语音转文字的服务,是用 Whisper 模型搭建吗,准确率能达到多少?二是和使用录音笔自带的转文字功能相比,哪个准确度更高一点?三是因为讲话人也就是固定的三五个人,能否进行模型训练,用什么来训练?四是成本大概是多少呢?谢谢。
    7 条回复    2023-12-08 15:55:53 +08:00
    charlestang
        1
    charlestang  
       2023-12-08 10:18:22 +08:00
    如果是中文的话,尤其夹杂方言的话,可以用科大讯飞的录音笔。自带终身免费的转文字方案(成本就是个录音笔的钱)。如果涉及到外语,可能只能选 Whisper 之类的东西了
    mylastfire
        2
    mylastfire  
    OP
       2023-12-08 11:30:47 +08:00
    @charlestang 感谢。不想为了工作花自己的钱,哈哈。如果自己搭建,还能干点别的事。
    xmuli
        3
    xmuli  
       2023-12-08 13:36:56 +08:00 via iPhone
    阿里开源的 FunASR 实测效果也很棒,中英识别也很准确。

    采用本地 whisper 不要部署 docker 那一个版本,表现比较拉胯,且间隔短了会返回 error
    mylastfire
        4
    mylastfire  
    OP
       2023-12-08 14:32:58 +08:00
    @xmuli 收到,多谢,晚上研究一下。
    fydss
        5
    fydss  
       2023-12-08 15:26:20 +08:00
    PLAY 上面有一个语音转文字的 APP 要求科学上网
    fydss
        6
    fydss  
       2023-12-08 15:27:11 +08:00
    找到了 叫实时转写 可以试试
    mylastfire
        7
    mylastfire  
    OP
       2023-12-08 15:55:53 +08:00
    @fydss 收到,感谢,去看看。虽然我目前是倾向于自己搭建一个 哈哈
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4003 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 04:11 PVG 12:11 LAX 21:11 JFK 00:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86