和香港同事开会总是听不太懂粤语,我用 Tauri 搓了个实时字幕工具 (macOS/Win) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
yaakua

和香港同事开会总是听不太懂粤语,我用 Tauri 搓了个实时字幕工具 (macOS/Win)

  •  
  •   yaakua 3 月 8 日 3523 次点击
    这是一个创建于 47 天前的主题,其中的信息可能已经有所发展或是发生改变。

    和香港同事开会总是听不太懂粤语,我用 Tauri 搓了个实时字幕工具 (macOS/Win)

    在一家跨地区团队工作了一段时间后,我发现一个挺真实的痛点:会议语言有时候是粤语。

    虽然大家也能切换普通话或英语,但很多时候讨论进入状态之后,自然就会变成粤语交流。其实我自己最近也刚好在学粤语,但如果你不是长期在粤语环境里,在工作场景下会遇到一种很微妙的情况:

    不是完全听不懂,但经常只能听懂七八成。

    特别是遇到一些香港本地表达、粤语里夹杂英文、多人同时快速讨论的时候。结果就是:会议能跟上大概意思,但细节容易漏掉。有时候大家已经开始讨论下一个问题了,我还在脑子里 compile 上一句到底说了什么。

    久而久之觉得挺影响沟通效率,所以后来我就做了一个自己用的小工具: 把电脑里播放的粤语语音,实时变成中文字幕。

    当然不止是粤语翻粤,英语、日语、韩语等都可以。

    网站:https://fanyueai.com/


    解决的其实就是一个很简单的场景

    我做这个工具最初只有一个目标:开会的时候能实时看到字幕。

    不管是 Zoom 、Google Meet 、Teams 还是网页版会议,只要电脑里有粤语语音,它就会:

    1. 实时监听系统级音频
    2. 实时识别粤语并翻译
    3. 用一个悬浮字幕条显示出来

    当有人语速很快的时候,看一眼字幕基本就能跟上内容。因为是系统级音频监听,所以平时用来看港区 YouTube 、听粤语播客,或者看没字幕的生肉视频也都能顺带用上。

    • 主界面 image.png

    • 实时字幕界面 image.png


    聊聊技术演进和踩坑

    一开始我也想过做成某个会议软件的插件,但大家用的软件太杂了,最后决定直接做系统级监听。

    客户端我个人比较反感那种动不动就吃掉几个 GB 内存的 Electron 巨兽,所以:

    • 技术栈: 选了 Tauri 来打包,客户端做得很轻(大概二十多 MB ),内存和 CPU 占用基本可以忽略不计。
    • UI 设计: 没有花里胡哨的主题切换,直接做成了类似苹果原生的深空灰暗色调,主打一个开会时悬浮在屏幕边缘“不喧宾夺主”。

    关于核心的翻译延迟问题,其实经历过一次重构:

    一开始的 V1 版本,我图省事直接接了阿里云的自动识别与翻译 API 。调用一个接口就能出结果,开发确实快,但效果很感人:机器味重、识别不准,而且延迟太高,开会用起来有明显的割裂感。

    后来痛定思痛改了架构。最近刚好发现 Google 新出了 gemini-3.1-flash-lite 模型,测试了一下发现用来做实时翻译简直是神器:速度极快,翻译的人话味道很浓,最关键的是支持自定义提示词(可以喂给它一些团队开会常用的 IT 缩写和黑话)。

    所以现在的版本改成了:实时语音识别 + 实时流式调用大模型 API 进行翻译。目前把整体的延迟压在了开会完全可接受的范围内。


    如果你刚好有类似场景

    目前打包了 macOSWindows 版本( Windows 没测太多老系统,目前 Win10 及以上可以正常跑)。

    如果你也是在香港工作的内地开发者,或者有远程和港区团队合作的需求,可以试试这个工具:

    [https://fanyueai.com/?ref=BRSLH8JQ](通过邀请码注册即赠 120 分钟时长。点击体验: https://fanyueai.com/?ref=BRSLH8JQ)

    给刚注册的新用户默认塞了 15 天体验和 90 分钟的翻译时长,基本足够大家开几次会,或者看个视频体验一下效果了。

    我自己也是一边用一边慢慢迭代,如果大家体验后觉得有什么 Bug ,或者在技术实现上(特别是跨平台音频流处理这块)有更好的思路,欢迎在帖子里吐槽交流,我下班后去修。

    41 条回复    2026-03-17 14:13:42 +08:00
    sanebow
        1
    sanebow  
       3 月 8 日 via iPhone
    看起来不错支持一下
    yaakua
        2
    yaakua  
    OP
       3 月 8 日
    @sanebow 感谢,欢迎多试用,提建议
    Shing
        3
    Shing  
       3 月 8 日 via iPhone
    不错,港粤能听得懂,但粤西地区的有些是难懂的,可以测试一下。
    yaakua
        4
    yaakua  
    OP
       3 月 8 日
    @Shing 现在的大模型针对特别小众的语言识别还是有困难,除非单独使用这个地区的语言训练过的模型(市面上也有,但是不多,且大部分是开源的没有直接 api 可以对接)
    kenshinhu
        5
    kenshinhu  
       3 月 8 日
    我想知道 粤韵风华之类的内容会怎样翻译?
    Rrrrrr
        6
    Rrrrrr  
       3 月 8 日
    其实就推广帖?
    jiji262
        7
    jiji262  
       3 月 8 日
    不开源么?
    yaakua
        8
    yaakua  
    OP
       3 月 8 日
    @Rrrrrr 好产品,好工具值得推荐,也值得推广
    yaakua
        9
    yaakua  
    OP
       3 月 8 日
    @jiji262 没啥开源的必要,这个就是给普通不懂技术的人使用的,开源只会让更多懂技术的人复制更多类似的产品。没意义
    byp
        10
    byp  
       3 月 8 日
    豆包已经支持方言了,开会的时候把豆包打开放旁边就行了,实时翻译
    wonderfulcxm
        11
    wonderfulcxm  
       3 月 8 日 via iPhone
    那理论上可以翻译任何语言显示字幕,不限于粤语吧
    runking
        12
    runking  
       3 月 8 日
    字幕准确性怎么样?
    yaakua
        13
    yaakua  
    OP
       3 月 8 日
    @byp 不一样,那个只支持字幕显示,不支持自动翻译
    yaakua
        14
    yaakua  
    OP
       3 月 8 日
    @wonderfulcxm 是的,只要模型支持,基本上都可以。只是我现在还没放开所有语言的自动翻译
    yaakua
        15
    yaakua  
    OP
       3 月 8 日
    @runking 已我这初级粤语的水平来说,至少我能看懂了。
    hanguofu
        16
    hanguofu  
       3 月 8 日
    gemini-3.1-flash-lite 的效果比 阿里云 的 ASR 还好吗 ?我有点不信:)
    Leon6868
        17
    Leon6868  
       3 月 8 日
    好产品,请问实时语音识别是在本机完成的吗?
    yaakua
        18
    yaakua  
    OP
       3 月 8 日
    @hanguofu 不是说比阿里云的 ASR 不好,而是阿里云有一个识别与翻译一体化的接口,这个识别效果可以,但是翻译是机器 AI 翻译的,不是大语言模型翻译,效果自然没 gemini 这个模型效果好
    yaakua
        19
    yaakua  
    OP
       3 月 8 日
    @Leon6868 不是,也是远程 api 实现的,本机不需要安装下载各种大模型,对于大部分用户来说这种方式反而简单
    iorilu
        20
    iorilu  
       3 月 8 日
    @Leon6868
    我的译王是基于本地识别的实时翻译系统
    因为在线识别, 必然成本高, 另外本地识别可控点

    t/1195970
    FrankAdler
        21
    FrankAdler  
       3 月 9 日 via Android
    nice 不过多说一句 Windows 自带字幕功能的 准确率还不错 只是不能智能识别语言 需要选择
    hackpro
        22
    hackpro  
       3 月 9 日
    实时翻译用的什么模型?还是云端 API ?
    云端的话企业的数据一般比较敏感吧
    yaakua
        23
    yaakua  
    OP
       3 月 9 日
    @iorilu 各有优缺点,本地识别能力取决于模型能力,模型能力取决于本机的计算能力支持多大的模型。还有翻译也需要模型支持,这些一般用户的电脑都撑不起
    yaakua
        24
    yaakua  
    OP
       3 月 9 日
    @FrankAdler 理论上识别那一块我设置的模式就是智能识别,也许是阿里的 ASR 这个智能识别效果差点
    yaakua
        25
    yaakua  
    OP
       3 月 9 日
    @hackpro 文章里面有说用什么模型做翻译,这个就是给个人用的,对数据敏感性要求高的还是本地的模型会更合适,当然对机器的要求也会更高
    isSamle
        26
    isSamle  
       3 月 9 日
    昨晚看到这个,连夜让 AI 帮我写了个项目:使用 Vosk 识别系统音频,展示实施字幕,根据提示词提供辅助内容输出……
    大概的功能写的看起来有模有样,目前还没测试通,Emmm……
    yaakua
        27
    yaakua  
    OP
       3 月 9 日
    @isSamle 加油,有技术问题可以一块交流
    isSamle
        28
    isSamle  
       3 月 10 日
    @yaakua 初版大概实现了,用 vosk 本地模型识别的,效果还要调整下,或者看下要不要改技术方案
    yaakua
        29
    yaakua  
    OP
       3 月 10 日
    @isSamle 这个 vosk 本地模型识别效率如何?对 GPU 要求高吗?
    isSamle
        30
    isSamle  
       3 月 10 日
    @yaakua 识别速度还可以,对 GPU 要求不高,就是精准度感觉差一点点
    yaakua
        31
    yaakua  
    OP
       3 月 10 日
    @isSamle 对比一下阿里云的 gummy-realtime-v1 这个在线 api 试试看效果,我用的是这个模型
    isSamle
        32
    isSamle  
       3 月 10 日
    @yaakua 以前的一个想法,刚好看到想起来,准备写来视频面试用的,对响应速度的要求比较高,尽可能低延迟,识别模型和 AI 模型我都是用本地的,一个本机,一个内网 GPU 服务器 Ollama ,这个在线的网络延迟严重吗?
    isSamle
        33
    isSamle  
       3 月 10 日
    @yaakua 换 SenseVoiceSmall 模型了,vosk 竟然不能混语言,中文夹杂其他语言会异常
    yaakua
        34
    yaakua  
    OP
       3 月 11 日
    @isSamle 识别速度基本延迟在 1-2s 内,翻译延迟 3-4s (毕竟是先识别后再调用 api 翻译)
    yaakua
        35
    yaakua  
    OP
       3 月 11 日
    @isSamle 另外建议你以后贴图可以用我的另外一个网站: https://imgto.link 来发图片,纯免费,无广告
    isSamle
        36
    isSamle  
       3 月 11 日
    @yaakua 那还是本地快一点,本地识别 300-700ms ,AI 辅助 1~2s ,SenseVoiceSmall 模型识别效果还不错,混合语种识别的也挺好,现在准备再加一个 AI 辅助修正的功能,对识别错漏就行纠错补全,再调一下样式基本可用了
    wxff
        37
    wxff  
       3 月 11 日
    @isSamle #26 咋样了,开源不?
    isSamle
        38
    isSamle  
       3 月 11 日
    @wxff 差不多搞定了,识别和 AI 辅助回答都测试 OK 了,就是有点丑调下界面就行,暂时还不能开源吧,等我面试拿到 offer 先,不然到时候工具满天飞应该会被监管吧而且其实 AI 开发挺快的
    isSamle
        39
    isSamle  
       3 月 11 日
    @wxff 用 AI 写了差不多两三天(下班回家的晚上时间),现在样式基本可以看了,简洁好看一点

    yaakua
        40
    yaakua  
    OP
       3 月 11 日
    @isSamle UI 样式可以让 Gemini 帮你设计,那个模型对 UI 设计的美感更好点。截图给他告诉它让它帮你设计成一个现代化的 UI
    wxff
        41
    wxff  
       3 月 17 日
    @yaakua #40 好的 我用 cursor 写了,我就是自己玩玩
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3488 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 73ms UTC 04:55 PVG 12:55 LAX 21:55 JFK 00:55
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86