V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 47 天前的主题，其中的信息可能已经有所发展或是发生改变。

和香港同事开会总是听不太懂粤语，我用 Tauri 搓了个实时字幕工具 (macOS/Win)

在一家跨地区团队工作了一段时间后，我发现一个挺真实的痛点：会议语言有时候是粤语。

虽然大家也能切换普通话或英语，但很多时候讨论进入状态之后，自然就会变成粤语交流。其实我自己最近也刚好在学粤语，但如果你不是长期在粤语环境里，在工作场景下会遇到一种很微妙的情况：

不是完全听不懂，但经常只能听懂七八成。

特别是遇到一些香港本地表达、粤语里夹杂英文、多人同时快速讨论的时候。结果就是：会议能跟上大概意思，但细节容易漏掉。有时候大家已经开始讨论下一个问题了，我还在脑子里 compile 上一句到底说了什么。

久而久之觉得挺影响沟通效率，所以后来我就做了一个自己用的小工具： 把电脑里播放的粤语语音，实时变成中文字幕。

当然不止是粤语翻粤，英语、日语、韩语等都可以。

网站：https://fanyueai.com/

解决的其实就是一个很简单的场景

我做这个工具最初只有一个目标：开会的时候能实时看到字幕。

不管是 Zoom 、Google Meet 、Teams 还是网页版会议，只要电脑里有粤语语音，它就会：

实时监听系统级音频
实时识别粤语并翻译
用一个悬浮字幕条显示出来

当有人语速很快的时候，看一眼字幕基本就能跟上内容。因为是系统级音频监听，所以平时用来看港区 YouTube 、听粤语播客，或者看没字幕的生肉视频也都能顺带用上。

主界面
实时字幕界面

聊聊技术演进和踩坑

一开始我也想过做成某个会议软件的插件，但大家用的软件太杂了，最后决定直接做系统级监听。

客户端我个人比较反感那种动不动就吃掉几个 GB 内存的 Electron 巨兽，所以：

技术栈： 选了 Tauri 来打包，客户端做得很轻（大概二十多 MB ），内存和 CPU 占用基本可以忽略不计。
UI 设计： 没有花里胡哨的主题切换，直接做成了类似苹果原生的深空灰暗色调，主打一个开会时悬浮在屏幕边缘“不喧宾夺主”。

关于核心的翻译延迟问题，其实经历过一次重构：

一开始的 V1 版本，我图省事直接接了阿里云的自动识别与翻译 API 。调用一个接口就能出结果，开发确实快，但效果很感人：机器味重、识别不准，而且延迟太高，开会用起来有明显的割裂感。

后来痛定思痛改了架构。最近刚好发现 Google 新出了 gemini-3.1-flash-lite 模型，测试了一下发现用来做实时翻译简直是神器：速度极快，翻译的人话味道很浓，最关键的是支持自定义提示词（可以喂给它一些团队开会常用的 IT 缩写和黑话）。

所以现在的版本改成了：实时语音识别 + 实时流式调用大模型 API 进行翻译。目前把整体的延迟压在了开会完全可接受的范围内。

如果你刚好有类似场景

目前打包了 macOS 和 Windows 版本（ Windows 没测太多老系统，目前 Win10 及以上可以正常跑）。

如果你也是在香港工作的内地开发者，或者有远程和港区团队合作的需求，可以试试这个工具：

[https://fanyueai.com/?ref=BRSLH8JQ](通过邀请码注册即赠 120 分钟时长。点击体验： https://fanyueai.com/?ref=BRSLH8JQ)

给刚注册的新用户默认塞了 15 天体验和 90 分钟的翻译时长，基本足够大家开几次会，或者看个视频体验一下效果了。

我自己也是一边用一边慢慢迭代，如果大家体验后觉得有什么 Bug ，或者在技术实现上（特别是跨平台音频流处理这块）有更好的思路，欢迎在帖子里吐槽交流，我下班后去修。

粤语

实时字幕

tauri

41 条回复 2026-03-17 14:13:42 +08:00

sanebow

3 月 8 日 via iPhone

看起来不错支持一下

yaakua

3 月 8 日

@sanebow 感谢，欢迎多试用，提建议

Shing

3 月 8 日 via iPhone

不错，港粤能听得懂，但粤西地区的有些是难懂的，可以测试一下。

yaakua

3 月 8 日

@Shing 现在的大模型针对特别小众的语言识别还是有困难，除非单独使用这个地区的语言训练过的模型（市面上也有，但是不多，且大部分是开源的没有直接 api 可以对接）

kenshinhu

3 月 8 日

我想知道粤韵风华之类的内容会怎样翻译？

Rrrrrr

3 月 8 日

其实就推广帖？

jiji262

3 月 8 日

不开源么？

yaakua

3 月 8 日

@Rrrrrr 好产品，好工具值得推荐，也值得推广

yaakua

3 月 8 日

@jiji262 没啥开源的必要，这个就是给普通不懂技术的人使用的，开源只会让更多懂技术的人复制更多类似的产品。没意义

byp

3 月 8 日

豆包已经支持方言了，开会的时候把豆包打开放旁边就行了，实时翻译

wonderfulcxm

3 月 8 日 via iPhone

那理论上可以翻译任何语言显示字幕，不限于粤语吧

runking

3 月 8 日

字幕准确性怎么样？

yaakua

3 月 8 日

@byp 不一样，那个只支持字幕显示，不支持自动翻译

yaakua

3 月 8 日

@wonderfulcxm 是的，只要模型支持，基本上都可以。只是我现在还没放开所有语言的自动翻译

yaakua

3 月 8 日

@runking 已我这初级粤语的水平来说，至少我能看懂了。

hanguofu

3 月 8 日

gemini-3.1-flash-lite 的效果比阿里云的 ASR 还好吗？我有点不信:)

Leon6868

3 月 8 日

好产品，请问实时语音识别是在本机完成的吗？

yaakua

3 月 8 日

@hanguofu 不是说比阿里云的 ASR 不好，而是阿里云有一个识别与翻译一体化的接口，这个识别效果可以，但是翻译是机器 AI 翻译的，不是大语言模型翻译，效果自然没 gemini 这个模型效果好

yaakua

3 月 8 日

@Leon6868 不是，也是远程 api 实现的，本机不需要安装下载各种大模型，对于大部分用户来说这种方式反而简单

iorilu

3 月 8 日

@Leon6868
我的译王是基于本地识别的实时翻译系统
因为在线识别, 必然成本高, 另外本地识别可控点

t/1195970

FrankAdler

3 月 9 日 via Android

nice 不过多说一句 Windows 自带字幕功能的准确率还不错只是不能智能识别语言需要选择

hackpro

3 月 9 日

实时翻译用的什么模型？还是云端 API ？
云端的话企业的数据一般比较敏感吧

yaakua

3 月 9 日

@iorilu 各有优缺点，本地识别能力取决于模型能力，模型能力取决于本机的计算能力支持多大的模型。还有翻译也需要模型支持，这些一般用户的电脑都撑不起

yaakua

3 月 9 日

@FrankAdler 理论上识别那一块我设置的模式就是智能识别，也许是阿里的 ASR 这个智能识别效果差点

yaakua

3 月 9 日

@hackpro 文章里面有说用什么模型做翻译，这个就是给个人用的，对数据敏感性要求高的还是本地的模型会更合适，当然对机器的要求也会更高

isSamle

3 月 9 日

昨晚看到这个，连夜让 AI 帮我写了个项目：使用 Vosk 识别系统音频，展示实施字幕，根据提示词提供辅助内容输出……
大概的功能写的看起来有模有样，目前还没测试通，Emmm……

yaakua

3 月 9 日

@isSamle 加油，有技术问题可以一块交流

isSamle

3 月 10 日

@yaakua 初版大概实现了，用 vosk 本地模型识别的，效果还要调整下，或者看下要不要改技术方案

yaakua

3 月 10 日

@isSamle 这个 vosk 本地模型识别效率如何？对 GPU 要求高吗？

isSamle

3 月 10 日

@yaakua 识别速度还可以，对 GPU 要求不高，就是精准度感觉差一点点

yaakua

3 月 10 日

@isSamle 对比一下阿里云的 gummy-realtime-v1 这个在线 api 试试看效果，我用的是这个模型

isSamle

3 月 10 日

@yaakua 以前的一个想法，刚好看到想起来，准备写来视频面试用的，对响应速度的要求比较高，尽可能低延迟，识别模型和 AI 模型我都是用本地的，一个本机，一个内网 GPU 服务器 Ollama ，这个在线的网络延迟严重吗？

isSamle

3 月 10 日

@yaakua 换 SenseVoiceSmall 模型了，vosk 竟然不能混语言，中文夹杂其他语言会异常

yaakua

3 月 11 日

@isSamle 识别速度基本延迟在 1-2s 内，翻译延迟 3-4s （毕竟是先识别后再调用 api 翻译）

yaakua

3 月 11 日

@isSamle 另外建议你以后贴图可以用我的另外一个网站： https://imgto.link 来发图片，纯免费，无广告

isSamle

3 月 11 日

@yaakua 那还是本地快一点，本地识别 300-700ms ，AI 辅助 1~2s ，SenseVoiceSmall 模型识别效果还不错，混合语种识别的也挺好，现在准备再加一个 AI 辅助修正的功能，对识别错漏就行纠错补全，再调一下样式基本可用了

wxff

3 月 11 日

@isSamle #26 咋样了，开源不？

isSamle

3 月 11 日

@wxff 差不多搞定了，识别和 AI 辅助回答都测试 OK 了，就是有点丑调下界面就行，暂时还不能开源吧，等我面试拿到 offer 先，不然到时候工具满天飞应该会被监管吧而且其实 AI 开发挺快的

isSamle

3 月 11 日

@wxff 用 AI 写了差不多两三天（下班回家的晚上时间)，现在样式基本可以看了，简洁好看一点

yaakua

3 月 11 日

@isSamle UI 样式可以让 Gemini 帮你设计，那个模型对 UI 设计的美感更好点。截图给他告诉它让它帮你设计成一个现代化的 UI

wxff

3 月 17 日

@yaakua #40 好的我用 cursor 写了，我就是自己玩玩