爱意满满的作品展示区。

V2EX 分享创造

离线字幕提取，基于 Whisper 封装了一个小工具，支持 GPU

rerender Mar 29, 2023 6327 views

This topic created in 1145 days ago, the information mentioned may be changed or developed.

制作了这样一个 Windows 上的小工具，用于提取字幕。

heard-usage

使用说明： https://rerender2021.github.io/products/heard/
仓库地址： https://github.com/rerender2021/heard

生成的字幕还可以离线英文翻译为中文：

srt2srt-usage

使用说明： https://rerender2021.github.io/products/srt2srt/
仓库地址： https://github.com/rerender2021/srt2srt

字幕

仓库

提取

whisper

22 replies 2023-06-14 12:58:55 +08:00

Greenm

Mar 29, 2023

楼主的我没用过，但是同样有一个 windows 上基于 whisper 的竞品： https://github.com/chidiwilliams/buzz

Greenm

Mar 29, 2023

@Greenm 说错了，buzz 是 mac ，windows ，Linux 都支持。

renmu

Mar 29, 2023 via Android

提点可能能做出差异化的东西。
其实你可以支持点别的东西，比如 whisperx ，faster-whisper ，以及一些超参数，反正你是用 Python 起得服务器来实现调用的，应该不会太麻烦。
whisper 对长音频解析的时候会经常出现多句重复的情况，可以做些简单处理。
也可以支持转成 ass 。
不同的音频可能参数会不一样，还可以支持什么参数配置加载。

ps：whisper 好像对唱歌音频效果不太好，有知道大佬吗

wudicgi

Mar 29, 2023

赞~~~

我是半个多月前刚了解到的这个 Whisper, 还打算结合以前做过的 SpleeterMsvcExe 项目做个自动生成歌词的工具
Whisper 识别出来的字幕，时间戳对齐的不太好，虽然现在有 word aligned 参数，但加上这个参数后识别效果不如不加时的
结合 Spleeter 对音频文件先分离出 vocals 轨，再按语音强弱把字幕给对齐一下应该就有不错的效果了

learner

Mar 29, 2023

"whisper 对长音频解析的时候会经常出现多句重复的情况" 这个我也遇到了，大佬有什么解决办法吗？

learner

Mar 29, 2023

@wudicgi " whisper 对长音频解析的时候会经常出现多句重复的情况" 这个我也遇到了，大佬有什么解决办法吗？

wudicgi

Mar 29, 2023

另外有一个 whisper.cpp 的项目，可以免除 Python 环境
https://github.com/ggerganov/whisper.cpp

缺点是不支持 GPU, 启用 word aligned 参数时比官方原版的效果要差很多

learner

Mar 29, 2023

@renmu " whisper 对长音频解析的时候会经常出现多句重复的情况" 这个我也遇到了，大佬有什么解决办法吗？（ V2EX 的回复功能不太会用……

wudicgi

Mar 29, 2023

@learner 这个从我用过几次的经验来看，换大一些的模型这种现象出现的会少一些
比如用 medium 模型，和 small, tiny 相比就不容易出这个问题

其他的因为还没具体去看它是如何对音频进行切片处理的，还不太清楚问题根源

renmu

Mar 29, 2023 via Android

简单粗暴的方法就是对解析后的 srt 再做个处理，如果前后两句重复，那么直接把后一句删了。

learner

Mar 29, 2023

@wudicgi 我用了 large 的模型也会出现，我这边试了 1 小时以上的音频基本上是必现的。。。

learner

Mar 29, 2023

@renmu 这样中间字幕会缺很多，一小时的视频，可能中间有十分钟都没字幕了

renmu

Mar 29, 2023 via Android

@learner 我这边的情况是在一般只有在没人说话的时候才会不断重复上一句。
你可以试试 whisperx ，好像情况会好一些，具体我没测试过

tool2d

Mar 29, 2023

@wudicgi 我也在用 whisper.cpp 这个，感觉很方便。

可惜识别的是繁体，中文多音字也不少，还要手动校验一次，和英语音译体验不好比。如果中文校验能自动化就好了。

iX8NEGGn

Mar 29, 2023 via iPhone

“生成的字幕还可以离线英文翻译为中文”，这也是 whisper 做的吗？我记得它只支持其他语言翻译成英文

koast

Mar 29, 2023

@tool2d 繁体的问题可以通过 initial_prompt 来解决，大致是用简体中文给指示就好，在 whisper 的 issue 里有人提到过，效果挺好的

kernelpanic

Mar 29, 2023

真复杂，又是 server 又是 npm 的，直接用这个不香吗，https://github.com/Const-me/Whisper ，不用安装，只有几百 kb 大小，再下载个模型 https://huggingface.co/ggerganov/whisper.cpp/tree/main ，直接用，还支持 GPU 加速