做了一个结合多种 AI 模型的一站式字幕平台,同时也提供 API - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
terryops
V2EX    分享创造

做了一个结合多种 AI 模型的一站式字幕平台,同时也提供 API

  •  
  •   terryops 2023-12-15 11:52:55 +08:00 2849 次点击
    这是一个创建于 715 天前的主题,其中的信息可能已经有所发展或是发生改变。

    分享一个我们正在做的产品--快转字幕 https://www.kzzimu.com ,目标是海外市场,先在国内试试水,de 下 bug 。

    下面我跟大家分享技术、经验和资源哈。

    一句话介绍

    是基于 Whisper 魔改版,实现音视频转字幕,GPT-4 翻译加润色,识别说话人,字幕智能重排的一站式音视频平台。

    V 友们肯定会说,XX 、XXX 和 XXXX 不都有这些东西?

    我们的优势是:

    1. 无须显卡,云端速度非常快。
    2. 普通用户可以免费使用。
    3. 傻瓜式,用户不需要有任何技术,不需要去搞什么 Key 。
    4. 解决很多 AI 模型的输出不稳定问题,保证结果的稳定性。
    5. 有一个体验非常好的字幕编辑器和文件管理系统。

    对我们的产品的技术实现感兴趣的话,可以留言,我会分享一些技术细节。比如,我们的说话人识别,用的是 NVIDIA 的 Nemo 。

    API

    另外,V 友如果想要在自己的产品上快速实现我们现在的功能,我们也做了 API 可以对接,比如我们支持 2 小时以内,100M 的不分段的音频识别。

    一些 todo

    1. 提取音频的纯人声、纯背景(已经做好,测试上线)
    2. 海外版(架构一开始就是面向全球,现在正在准备外文资料和服务器架构)
    3. 下载合并了字幕的视频文件。(已经设计好)
    4. 根据字幕的剪辑功能。(新建文件夹)
    21 条回复    2024-01-05 18:29:45 +08:00
    webjourneyer
        1
    webjourneyer  
       2023-12-15 15:36:26 +08:00
    哇,我们正好也在开始做这块的,希望楼主能分享更多细节
    terryops
        2
    terryops  
    OP
       2023-12-15 15:41:56 +08:00
    @webjourneyer 多搞搞差异化吧。你想知道哪部分的细节?
    webjourneyer
        3
    webjourneyer  
       2023-12-15 16:02:34 +08:00
    @terryops 目前我们基于 whisper 也搞了一个字幕提取的(主要是参考开源的应用),但我就一直没办法像楼主你那样搞成网站的形式来调用进行调用,你们边播放边把字幕实时搞进去是怎么处理的呀
    Cellinlab
        4
    Cellinlab  
       2023-12-15 16:10:52 +08:00
    加个音色识别吧,这样能吊打市面上 99%字幕识别工具了,给字幕加上角色
    terryops
        5
    terryops  
    OP
       2023-12-15 16:15:59 +08:00
    @Cellinlab 我们可以识别说话人,区分 1 、2 、3 、4 、5 、6 这样,但是具体这个人是谁,需要音色的向量保存下来,然后人工标注。
    目前我们的产品主要定位是视频创作者,用户可以手动标注说话人的名字,目前来看是够用的。
    terryops
        6
    terryops  
    OP
       2023-12-15 16:16:40 +08:00
    @webjourneyer 这个很简单,是浏览器自带的功能,用那个 WebVTT 的格式,就能挂载字幕了。
    lidedongsn
        7
    lidedongsn  
       2023-12-15 16:22:13 +08:00
    这个特色是转字幕,有没有想过加强剪辑的能力
    lidedongsn
        8
    lidedongsn  
       2023-12-15 16:24:11 +08:00
    还有就是基于识别字幕的文本内容结合当前的大模型能力,生成视频摘要还有智能剪辑
    Cellinlab
        9
    Cellinlab  
       2023-12-15 16:24:55 +08:00
    @terryops 挺好,我觉得你可以和他们谈下合作 https://www.33subs.com/contact
    webjourneyer
        10
    webjourneyer  
       2023-12-15 16:28:08 +08:00
    @terryops 感谢,我研究下
    terryops
        11
    terryops  
    OP
       2023-12-15 16:30:56 +08:00
    @Cellinlab 他们有个雷同的产品呀,这是竞争关系哈哈哈
    terryops
        12
    terryops  
    OP
       2023-12-15 16:31:44 +08:00
    @lidedongsn 谢谢,这块我们研究下能做到什么个程度。
    Andim
        13
    Andim  
       2023-12-15 17:00:00 +08:00
    试了下中文比原生的 Whisper 还是要差点,原生 Whisper 能识别中文 80%

    https://www.kzzimu.com/result/94f99bd0e6f59046222957b506ded023

    https://gcdnb.pbrd.co/images/wIzlPpehs9tW.png?o=1

    只识别出四句
    音频是 李千那 的 延禧攻略
    deiphi
        14
    deiphi  
       2023-12-15 17:14:31 +08:00
    试了一下,跟 Whisper large v3 出来的字幕一模一样。
    terryops
        15
    terryops  
    OP
       2023-12-15 21:02:06 +08:00
    @deiphi 我们是基于 Large-V2 ,V3 有很多问题,测试后弃用了。
    我们考虑到了很多边界的情况的处理,一个视频是测不出来质量差别滴。
    terryops
        16
    terryops  
    OP
       2023-12-15 21:09:20 +08:00
    @Andim 可能是你的文件有问题,我把你发的链接直接下载视频下来,拖进去转录,能出全部歌词。
    [temp-Imagej-U4z-LX.jpg]( https://postimg.cc/JydH3tZR)
    terryops
        17
    terryops  
    OP
       2023-12-15 21:10:29 +08:00
    <a href='https://postimg.cc/JydH3tZR' target='_blank'><img src='https://i.postimg.cc/JydH3tZR/temp-Imagej-U4z-LX.jpg' border='0' alt='temp-Imagej-U4z-LX'/></a>
    Andim
        18
    Andim  
       2023-12-15 21:49:16 +08:00
    @terryops
    https://mega.nz/file/64VjFSRY#wHOazbwhbsSj7BJ2LnjTZco0Wx5SUzEdqlEH8Is0_DM
    这个音频我用 Whisper 识别是没问题的,不过 Whisper 对中文的错误率还是很高
    terryops
        19
    terryops  
    OP
       2023-12-15 23:23:45 +08:00
    @Andim 你有没有发现你出现了李宗盛作词作曲这种幻听?然后 3 分 17 秒那句完全就错的。
    我们研究了很多这种问题,有很多解决方案,比如然后你那个文件有点问题,我们有个功能,去杂音。
    https://imgur.com/a/acOVSYO
    勾选之后就能识别了。
    https://imgur.com/a/AMVID1N
    另外 Whisper 对音质要求很高的,音质差,识别率就差,断句也会差。你那个 8mb 的 wav 文件,码率应该相当低。
    但是可以做一些音频处理,移除杂音。
    wswlaz
        20
    wswlaz  
       2024-01-04 13:13:12 +08:00
    获取视频信息失败,请检查 URL 是否有效
    terryops
        21
    terryops  
    OP
       2024-01-05 18:29:45 +08:00
    @wswlaz 在线视频?哪个平台的
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2699 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 14:17 PVG 22:17 LAX 06:17 JFK 09:17
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86