Whisper Notes - 免费的语音转文本工具(iOS) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
wseani
V2EX    分享创造

Whisper Notes - 免费的语音转文本工具(iOS)

  •  1
     
  •   wseani
    mazzzystar 2023-04-06 09:31:31 +08:00 5847 次点击
    这是一个创建于 923 天前的主题,其中的信息可能已经有所发展或是发生改变。

    简介

    产品名: Whisper Notes

    它是一个离线的OpenAI Whisper模型,可以将你的语音输入以极高的准确率转成文字、支持多语言夹杂。

    它是免费的:无内购、无广告、不联网。 (如果不缺钱,在未来很长一段时间我会维持它免费)

    动机

    市场上已经有一些 Whisper 工具了,为什么我还要做一个呢?需求主要是:

    1. 记录梦境:有时我做了个奇特的梦,醒来想记录,但睡眼朦胧很难打字,希望有个工具能快速录入语音并文本化。

    2. 回微信消息:有时我需要回复很长的微信,但此时我在街上或在吃饭,在不回复语音消息的情况下,快速回信息。

    3. 捕捉灵感:和 2 类似,有时不方便打字的场合突然有了新念头,想记录下来。

    市场上的工具,要么太大(速度慢)、要么太小(准确率低)、要么会上传你的音频。

    Whisper Notes 在准确率和速度之间做了折衷:尽可能使用最大的模型,但速度不至于慢到等几分钟才完成转录。正常情况下,你录入一段语音,等待几秒钟就可以完成。

    因为目的是「速记」,所以 Whisper Notes 的"日记"属性很弱。转录完,文字就会自动复制到剪贴板,你可以粘贴到微信、或真正的日记 /Memo 软件来整理。

    截图

    Whisper Notes

    欢迎下载体验 & 反馈

    App Store: Whisper Notes

    46 条回复    2025-06-22 22:38:32 +08:00
    wwqgtxx
        1
    wwqgtxx  
       2023-04-06 10:14:04 +08:00   1
    已经下载,支持楼主
    wwqgtxx
        2
    wwqgtxx  
       2023-04-06 10:39:22 +08:00
    试用了一下,当长录音的时候能否考虑到一定长度就开始计算了呢(并显示部分结果),现在仿佛是等到 stop 之后才会开始计算,这是否有点浪费时间
    Zeco41
        3
    Zeco41  
       2023-04-06 10:44:00 +08:00
    想支持一波,但手里的备用机还是 14.7.1 ,给你点个感谢吧。
    wseani
        4
    wseani  
    OP
       2023-04-06 10:53:24 +08:00
    @wwqgtxx 的确,实时计算体验会好一些,之后有空会试试~
    DjvuLee
        5
    DjvuLee  
       2023-04-06 12:29:49 +08:00
    不错!不过和苹果自带的语音转文字效果比较起来如何
    wseani
        6
    wseani  
    OP
       2023-04-06 13:13:21 +08:00
    @DjvuLee 你可以试试看!我的感觉是碾压。
    DjvuLee
        7
    DjvuLee  
       2023-04-06 13:27:31 +08:00
    @wseani whisper 的中文识别不是不太行吗?
    cest
        8
    cest  
       2023-04-06 13:36:29 +08:00
    @wwqgtxx #2 没法实时吧
    whisper 比其他语音输入猜得准就是靠用超大的 30s sliding window 做上下文解析的
    wseani
        9
    wseani  
    OP
       2023-04-06 13:57:15 +08:00
    @DjvuLee 应该是相比它对其他语言的支持准确率不太行,相比系统自带的强很多。
    @cest 他说的应该是,例如 5 分钟的音频,不需要等到录制完再 Transcribe
    OliverDD
        10
    OliverDD  
       2023-04-06 14:28:08 +08:00 via iPhone   1
    赞!好用
    johannhuang
        11
    johannhuang  
       2023-04-06 16:58:36 +08:00
    有趣的应用,虽然安装包有些大。还有一个遗憾,whisper 对硬件的要求低到移动设备就够了么?或者用起来有些“烧硬件”(用起来就卡一会儿)?
    johannhuang
        12
    johannhuang  
       2023-04-06 16:59:20 +08:00
    (“遗憾”实为“疑惑”)
    wankedKing
        13
    wankedKing  
       2023-04-06 17:08:00 +08:00
    如果可以记录梦话就好玩了,让它在睡觉时检测声音,如果有音频就写入。
    wseani
        14
    wseani  
    OP
       2023-04-06 17:10:29 +08:00
    @johannhuang
    Whisper small 的参数量是 2 亿,不算很大,手机上应该是没问题的。不过发热会降低 Core ML 性能,所以长时间可能会卡,内存也会缓慢上升。
    wseani
        15
    wseani  
    OP
       2023-04-06 17:11:38 +08:00
    @wankedKing
    我用过 SleepCycle 就支持记录梦话和打鼾,那个开一整晚挺耗电的,满电睡一晚第二天就剩 20%了。
    hackpro
        16
    hackpro  
       2023-04-06 17:26:24 +08:00 via iPhone
    可能的话可以支持下 iOS 15 吗
    ShinomiyaKaguya
        17
    ShinomiyaKaguya  
       2023-04-06 19:09:45 +08:00 via iPhone
    可以考虑做一个 mac 应用,然后允许上传音频或视频文件,语音转文字
    Zchary
        18
    Zchary  
       2023-04-06 20:35:49 +08:00 via iPhone
    这个 app 体积主要是被 model 占用了吗?
    wseani
        19
    wseani  
    OP
       2023-04-06 21:01:42 +08:00
    @Zchary 没错! 99.9%都是模型。
    wseani
        20
    wseani  
    OP
       2023-04-06 21:04:40 +08:00
    @ShinomiyaKaguya 因为是服务于我「不想在微信框打字」的需求,所以优先手机。Mac 端你可以搜 Aiko ,那个模型最大,最准确。
    wsani
        21
    wseani  
    OP
       2023-04-06 21:08:52 +08:00
    @hackpro 抱歉暂时不支持 15 ,主要是 16 相比 15 的模型速度快很多,15 的用户体验不太好 =.=
    hanguofu
        22
    hanguofu  
       2023-04-06 21:26:22 +08:00
    有没有人试过 用 普通话 的识别效果 ?
    bbbb
        23
    bbbb  
       2023-04-07 15:38:02 +08:00 via iPhone
    @hanguofu 说了 1234 ,识别了好几分钟,出来了这个:

    One, two, three, four, five, six, seven, eight, nine, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten
    wseani
        24
    wseani  
    OP
       2023-04-07 15:43:21 +08:00
    @bbbb 可以知道你的设备+系统吗?很奇怪。
    bbbb
        25
    bbbb  
       2023-04-07 16:11:47 +08:00 via iPhone
    @wseani iphone12 16.4
    b4115Z4mRAz9P8EA
        26
    b4115Z4mRAz9P8EA  
       2023-04-07 16:36:21 +08:00
    超厉害的楼主,mac os m1 能支持吗?还是习惯用电脑。当前一打开,就报错。
    wseani
        27
    wseani  
    OP
       2023-04-07 16:43:21 +08:00
    @bbbb 我印象中有几个报错的用户都是 16.4 ,估计是新系统引入的 bug...我会研究一下的。
    wseani
        28
    wseani  
    OP
       2023-04-07 16:44:31 +08:00
    @yqf0215 你可以试试 Aiko~
    wseani
        29
    wseani  
    OP
       2023-04-07 16:45:55 +08:00
    @yqf0215 确实,我试了下自己的 Mac 也是:
    “This app has crashed because it attempted to access privacy-sensitive data without a usage description. The app's Info.plist must contain an com.apple.security.device.audio-input key with a string value explaining to the user how the app uses this data. ”

    看上去是没加麦克风权限申请导致的。
    huazidev
        30
    huazidev  
       2023-04-07 17:15:30 +08:00
    请问用的哪个模型,各种语言支持的怎么样?
    b4115Z4mRAz9P8EA
        31
    b4115Z4mRAz9P8EA  
       2023-04-09 11:30:07 +08:00   1
    @wseani 坐等楼主更新,超级感谢。因为有朋友问我有没有类似的软件
    wseani
        32
    wseani  
    OP
       2023-04-10 14:41:20 +08:00
    @yqf0215
    今天完成了 Mac 版开发,模型比 iOS 大,并且支持上传录音了。顺利的话,明天就可以在 Mac 商店下载啦!
    ![]( https://i.328888.xyz/2023/04/10/imrMNy.th.jpeg)
    wseani
        33
    wseani  
    OP
       2023-04-10 14:41:56 +08:00
    wseani
        34
    wseani  
    OP
       2023-04-10 14:43:27 +08:00
    @ShinomiyaKaguya
    Mac 版预计明天也可以下载啦
    saimax
        35
    saimax  
       2023-04-11 21:43:19 +08:00 via iPhone   1
    我来补一下 mac 可以下载了
    neilp
        36
    neilp  
       2023-04-12 22:40:15 +08:00
    有没有可能把这个稍微改一下, 改成一个能实时对话翻译的 app.
    可以选择语言, 当然能自动识别语言更好.
    然后, 实时互译. 支持自己提供 openai api key.
    wseani
        37
    wseani  
    OP
       2023-04-13 09:07:42 +08:00
    @neilp 有想过,因为我也需要。
    neilp
        38
    neilp  
       2023-04-13 13:18:21 +08:00
    @wseani 前面最难的部分你这已经实现了. 后面就差调 api 翻译,并返回了. 这就能满足 99% 的用例了. 更进一步还可以朗读.
    neilp
        39
    neilp  
       2023-04-13 13:20:54 +08:00
    如果可以开源的话, 我愿意试试贡献. 虽然我目前还不会 ios
    wseani
        40
    wseani  
    OP
       2023-04-13 17:34:14 +08:00
    @neilp 这并不是我的功劳,模型部分你可以看[whisper.cpp]( https://github.com/ggerganov/whisper.cpp)。在这个项目上我只是做了 UI+功能,以及中文的段落处理。之所以不用翻译 api ,是因为我希望这个 app 完全离线,一旦使用翻译 api ,这个软件将无法免费供人使用。
    neilp
        41
    neilp  
       2023-04-13 18:13:26 +08:00
    翻译只是另外一个功能而已, 如果你能上架翻译功能, 很多人会付费.
    wseani
        42
    wseani  
    OP
       2023-04-13 18:30:11 +08:00
    @neilp 我有点隐私洁癖,不希望弹出「请求访问网络」窗口。如果不做成付费 app ,内购的话会弹窗。
    huyinjie
        43
    huyinjie  
       2023-05-05 11:47:25 +08:00
    支持!可以做个导入录音的功能吗
    wseani
        44
    wseani  
    OP
       2023-05-05 13:44:56 +08:00
    @huyinjie Mac 版支持导入音频,手机按钮太多我有点不知所措。
    Linvas
        45
    Linvas  
       2023-07-18 17:47:36 +08:00
    怎么做的训练?
    xiaopavatar
        46
    xiaopavatar  
       114 天前 via iPhone
    挺好用,请问最长支持多久的音频?我想做会议记录。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2898 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 13:56 PVG 21:56 LAX 06:56 JFK 09:56
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86