

1 Daybyedream 3 月 19 日 我现在转文字都白嫖千问 APP 里的 视频都不传直接提取音频发过去还是很快处理好的。 |
2 andyskaura OP @Daybyedream 大模型还是太权威了 我用 Whisper 本地识别,如果不做降噪和切片,和上下文优化,识别准度还差很大意思 |
3 arcsin1 3 月 19 日 Whisper 本地识别 只能做些简单的。毕竟量不够 |
4 wednesdayco 3 月 19 日 ?我刚给我对象弄了一个这个的 demo |
5 cairnechen 3 月 19 日 memo ? |
6 indexError 3 月 20 日 via Android 先别写了 认真的,再去做做调查 |
7 superhuai 3 月 20 日 有没有好兄弟试试 AV |
8 Daybyedream 3 月 20 日 @andyskaura 主要不着急不是批量自动化的话,千问客户端,音视频里转文字上传之后够用还方便的。我一般也推荐别人用这个。 |
9 andyskaura OP |
10 andyskaura OP @Daybyedream #8 忘 @了 |
11 galenzhao 1 天前 多人的音频分离有啥好用的吗,我现在缺了这一块的实现 |
12 andyskaura OP @galenzhao 问了下 ai ,还是给出挺多方案的。 不过当前项目没用,这项目的模式是 ffmpeg 分离声道,VAD 切分移除非人声部分,Whisper 转录原文,llm 翻译。 |