Chrome 扩展 DualPiP v1.7- 给任意网页视频加实时字幕 直播/网课/无字幕视频都能用 - V2EX
如果想在 V2EX 获得更好的推广效果,欢迎了解 PRO 会员机制:
pro/about

如果你经常使用铜币置顶主题,持有 V2EX Solana Token 会在每日签到时获得额外铜币:
solana
ymlluo

Chrome 扩展 DualPiP v1.7- 给任意网页视频加实时字幕 直播/网课/无字幕视频都能用

  •  
  •   ymlluo 3 days ago 756 views

    很多时候想看的视频没有字幕:直播回放、没人翻译的网课、国外新闻直播、番剧。之前只能靠听。

    DualPiP 最近 v1.7 更新加了 ASR (自动语音识别)实时字幕功能。

    原理

    通过浏览器的音频捕获 API 获取视频音频流,发送到 Deepgram 云端通过 WebSocket 实时转写。也支持本地部署的 Whisper 服务器。预加载模式无延迟,实时字幕延迟大约 300ms 。

    Deepgram 为新注册用户提供 **$200 免费额度**,注册全程无需绑定任何支付方式。按 nova-3 模型 $0.007/分钟计算,$200 额度足够转录约 476 小时音频相当于看 238 部 2 小时电影

    适用场景

    1. 直播没字幕:YouTube/Twitch 直播大多没有实时字幕,DualPiP 可以实时生成
    2. 网课录像:大学网课很多没有字幕,开了 ASR 就有了
    3. 看生肉番:为没有字幕的番剧,自动生成字幕,
    4. 学外语:ASR 生成的字幕可以直接走 AI 翻译生成双语字幕,看英语直播时显示英文+中文字幕

    ASR 实时流和预下载批量模式有什么区别?

    DualPiP ASR 提供两种音频捕获和识别模式,适应不同的观看场景:

    实时流模式( WebSocket Streaming )

    音频通过 WebSocket 实时发送到 Deepgram 服务器,字幕延迟低于 300ms ,几乎和说话同步。Deepgram 的 Interim Results 功能还会在最终结果出来前提供临时识别结果,让字幕出现得更快。适合直播、视频会议、实时内容等需要即时馈的场景。

    预下载批量模式( Pre-download + HTTP Batch )

    DualPiP 先将视频音频预下载并按时间段分割,然后通过 HTTP 请求批量发送到 ASR 服务进行离线识别。适合已发布的视频内容可以在观看前提前生成完整字幕,播放时完全无延迟。预下载模式同时支持 Deepgram 云端和本地 Whisper 后端。

    对比 实时流模式 预下载批量模式
    延迟 < 300ms 预下载完成后零延迟
    适合场景 直播、实时内容、会议 已发布的视频、需要完整字幕
    支持后端 Deepgram ( WebSocket ) Deepgram + 本地 Whisper
    字幕完整性 实时生成,偶有遗漏 完整覆盖全部音频内容

    如何用 ASR 字幕配合 AI 翻译生成实时双语字幕?

    DualPiP 的 ASR 和 AI 翻译可以配合使用,为任何语言的在线视频实时生成双语字幕。这解决了一个传统字幕无法覆盖的场景:视频没有原生字幕,但你需要看双语字幕学外语

    ASR + AI 翻译的工作流程

    1. ASR 实时识别原文:Deepgram 将视频音频转录为原语言文字字幕
    2. AI 大模型实时翻译:DualPiP 的 AI 翻译引擎将 ASR 生成的字幕翻译为目标语言
    3. 双语字幕同时显示:原文和译文以双语字幕的形式叠加在视频上方

    为什么 ASR 字幕翻译强烈推荐使用 AI 大模型?

    ASR 生成的字幕与传统字幕文件不同ASR 字幕是实时识别的语音转录,可能存在断句不完整、口语化表达多、专有名词无上下文等问题。AI 大模型翻译( DeepSeek 、GPT 、Claude 等)在翻译 ASR 字幕时显著优于传统机翻( Google 、Microsoft ),原因在于:

    对比维度 传统机翻( Google/Microsoft ) AI 大模型翻译( DeepSeek/GPT/Claude )
    上下文理解 逐句翻译,无前后文信息 DualPiP 发送最近 N 条字幕作为上下文历史
    口语化处理 直译口语,生硬不通顺 理解口语语境,翻译自然流畅
    断句补全 ASR 断句不完整时翻译错乱 能结合上下文补全语义,正确翻译
    专有名词 频繁翻错人名、术语 结合 DualPiP 的影片信息增强识别
    语气还原 机械直译 保留说话者语气和表达风格

    DualPiP 的 AI 翻译引擎使用滑动窗口上下文机制:每次翻译 ASR 字幕时,会将前面已翻译的字幕作为对话历史一起发送给 AI ,让翻译结果前后一致、上下文连贯。这在 ASR 场景下尤其重要因为语音识别的断句和传统字幕不同,AI 需要结合前文才能正确理解当前句子的含义。

    适合的使用场景

    场景 说明
    看无字幕外语视频学语言 ASR 识别原文 + AI 翻译为母语,双语对照学习
    看直播或实时内容 直播没有预制字幕,ASR 实时生成 + AI 实时翻译
    学术讲座和在线课程 部分课程无字幕或仅有英文字幕,ASR + AI 生成中文翻译
    播客和访谈节目 纯音频内容通过 ASR 可视化为文字,再翻译为目标语言

    DualPiP 支持 30+ AI 翻译服务商,用户可以根据翻译质量和费用自由选择。推荐使用 DeepSeek V4 Flash(性价比高,翻译一部电影约 0.2-0.5 )。

    哪些视频网站可以用 DualPiP ASR 自动生成字幕?

    DualPiP ASR 基于浏览器的 Audio Capture API 捕获音频,理论上可以为任何在 Chrome 中播放的视频自动生成字幕。 对于没有原生字幕的视频(如很多直播内容、小众平台视频、用户上传的无字幕视频),ASR 是获取字幕的唯一途径。

    常见问题

    Q:ASR 实时语音识别的准确率怎么样? Deepgram nova-3 模型在英语上的词错误率( WER )低于 8%,是 2026 年最准确的实时语音识别模型之一。中文、日语等语言的识别准确率同样出色。识别效果受音频质量、说话人口音和背景噪音影响,纯语音内容的识别效果最佳。

    Q:ASR 是 DualPiP 的免费功能还是 PRO 功能?

    DualPiP 基础功能免费,AI 翻译和 ASR 需要登录后开通 PRO 后使用。

    ASR 实时字幕是 PRO 功能。DualPiP 的 YouTube 网页内双语字幕和基础画中画播放器免费使用,ASR 、AI 翻译等高级功能需要 购买 PRO 。首次注册免费开通 7 天 PRO

    Q:能识别视频中的多种语言混合吗? Deepgram 的 Multilingual 模式支持在同一段音频中自动检测和切换语言,适合多语言混合的访谈、播客和教学内容。本地 Whisper 后端也支持语言自动检测,但切换精度低于 Deepgram 。

    下载

    Chrome Web Store: https://chromewebstore.google.com/detail/dualpip/ddkmobcljbfggkmibabekgpbighaogpn

    9 replies    2026-06-05 14:12:57 +08:00
    artv
        1
    artv  
       3 days ago
    试过了,非常好用。[旺柴]

    icemaple
        2
    icemaple  
       3 days ago
    你才是真正的英雄
    CCidea
        3
    CCidea  
       3 days ago
    @artv 兄弟,借一部说话
    artv
        4
    artv  
       2 days ago
    @CCidea 我没有,missav,jable ,123av 什么的我都没看过
    Chelseawin
        5
    Chelseawin  
       2 days ago
    这才是 AI 存在意义
    ymlluo
        6
    ymlluo  
    OP
       2 days ago
    @artv #1 这都被你发现了
    ymlluo
        7
    ymlluo  
    OP
       2 days ago
    @icemaple 哈哈,主要是为了学习
    ymlluo
        8
    ymlluo  
    OP
       2 days ago
    @Chelseawin 感谢支持
    nightwind
        9
    nightwind  
       12h 19m ago
    好用的插件,合格的 2 楼
    About     Help     Advertise     Blog     API     FAQ     Solana     1040 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 46ms UTC 18:32 PVG 02:32 LAX 11:32 JFK 14:32
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86