提取音频或者视频为文字信息有什么好办法吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
clockwork1122
V2EX    问与答

提取音频或者视频为文字信息有什么好办法吗?

  •  
  •   clockwork1122 2023-09-08 22:28:29 +08:00 2838 次点击
    这是一个创建于 802 天前的主题,其中的信息可能已经有所发展或是发生改变。

    平时比较喜欢听一些播客或者是看些知识型的视频想记录文字,是否能有工具满足两个场景。

    1. 边听(看)边输出文字
    2. 输入音频或者视频链接,自动输出文本。 (现在同传或者是 AI 字幕都很成熟,有现成工具还是需要调大厂的 API 自己实现呢
    10 条回复    2025-02-18 14:35:41 +08:00
    qquantt
        1
    qquantt  
       2023-09-08 22:42:32 +08:00
    提取音频或视频为文字信息,通常被称为“语音识别”或“自动语音转录”。以下是一些常用的方法和工具:

    专业转录服务:有些公司提供专业的转录服务,如 Rev 和 TranscribeMe 。这些服务通常提供高精度的转录,但可能需要支付费用。

    自动转录软件:

    1. Google Cloud Speech-to-Text:这是一个基于云的 API ,可以将音频和视频转换为文字。
    2. IBM Watson Speech to Text:IBM 的语音识别服务也提供了类似的功能。
    3. Amazon Transcribe:Amazon 的自动语音转录服务。
    桌面软件:如 Dragon NaturallySpeaking ,它是一个语音识别软件,可以将说话的内容转化为文字。

    免费工具:

    1. YouTube:你可以上传视频到 YouTube ,然后开启自动生成字幕功能。之后,你可以下载这些字幕作为文本文件。
    2. Audacity:这是一个免费的音频编辑软件,它有一些插件可以进行简单的语音识别。
    3. 手机应用:有些手机应用如 Otter.ai ,可以实时转录会议或对话。

    4. 专用硬件:如专业的数字录音笔,有些模型带有自动转录功能。科大讯飞的耳机可以。

    5. 开源工具:如 CMU Sphinx ,这是一个开源的语音识别系统,适合于那些希望自定义或集成到自己的应用中的开发者。

    选择哪种方法取决于你的需求、预算和所需的准确性。对于正式的商业或法律文件,可能需要专业的转录服务以确保准确性。而对于日常使用或草稿,自动转录工具或应用可能已经足够了。
    kdwnil
        2
    kdwnil  
       2023-09-08 23:29:40 +08:00 via Android   1
    看起来 op 的需求是语音转文字?有个东西叫 openai/whisper ,我记得前段时间有 v2 老哥分享过基于这玩意做的工具
    Andim
        3
    Andim  
       2023-09-09 00:26:05 +08:00 via iPhone
    @kdwnil 中文错误率太高 正确率可能也就 80%多
    fyq
        4
    fyq  
       2023-09-09 01:44:09 +08:00   1
    和你的诉求稍微有点点出入:
    https://github.com/raryelcostasouza/pyTranscriber
    可以将你要的音视频转为 mp3 后导入得到文本
    ZeroW
        5
    ZeroW  
       2023-09-09 10:05:08 +08:00 via iPhone
    通义听悟挺好用的
        6
    jancing  
       2023-09-09 11:56:18 +08:00   1
    1. Microsoft 365 Word
    2. Adobe Speech to Text in Premiere Pro
    rpish
        7
    rpish  
       2023-09-09 16:20:48 +08:00   1
    飞书妙记
    unii23i
        8
    unii23i  
       2023-09-09 18:54:14 +08:00
    clockwork1122
        9
    clockwork1122  
    OP
       2023-09-11 15:02:23 +08:00
    @jancing 感谢我试试
    pimou
        10
    pimou  
       273 天前
    自荐下。 DuRT 是 mac 上的实时语音识别和翻译软件。
    https://apps.apple.com/us/app/durt/id6736675809?mt=12
    目前功能:1. 实时识别音频(支持系统音频和麦克风),转成文本 (支持几十种语言)
    2. 实时将文本翻译成需要的语言 (支持几十种语言)
    3. 保存音频、保存文本。
    识别使用的是本地模型,不需要使用云端的 API 。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1055 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 18:47 PVG 02:47 LAX 10:47 JFK 13:47
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86