产品名: Whisper Notes
它是一个离线的OpenAI Whisper模型,可以将你的语音输入以极高的准确率转成文字、支持多语言夹杂。
它是免费的:无内购、无广告、不联网。 (如果不缺钱,在未来很长一段时间我会维持它免费)
市场上已经有一些 Whisper 工具了,为什么我还要做一个呢?需求主要是:
记录梦境:有时我做了个奇特的梦,醒来想记录,但睡眼朦胧很难打字,希望有个工具能快速录入语音并文本化。
回微信消息:有时我需要回复很长的微信,但此时我在街上或在吃饭,在不回复语音消息的情况下,快速回信息。
捕捉灵感:和 2 类似,有时不方便打字的场合突然有了新念头,想记录下来。
市场上的工具,要么太大(速度慢)、要么太小(准确率低)、要么会上传你的音频。
Whisper Notes 在准确率和速度之间做了折衷:尽可能使用最大的模型,但速度不至于慢到等几分钟才完成转录。正常情况下,你录入一段语音,等待几秒钟就可以完成。
因为目的是「速记」,所以 Whisper Notes 的"日记"属性很弱。转录完,文字就会自动复制到剪贴板,你可以粘贴到微信、或真正的日记 /Memo 软件来整理。
欢迎下载体验 & 反馈
App Store: Whisper Notes
![]() | 1 wwqgtxx 2023-04-06 10:14:04 +08:00 ![]() 已经下载,支持楼主 |
![]() | 2 wwqgtxx 2023-04-06 10:39:22 +08:00 试用了一下,当长录音的时候能否考虑到一定长度就开始计算了呢(并显示部分结果),现在仿佛是等到 stop 之后才会开始计算,这是否有点浪费时间 |
3 Zeco41 2023-04-06 10:44:00 +08:00 想支持一波,但手里的备用机还是 14.7.1 ,给你点个感谢吧。 |
![]() | 5 DjvuLee 2023-04-06 12:29:49 +08:00 不错!不过和苹果自带的语音转文字效果比较起来如何 |
8 cest 2023-04-06 13:36:29 +08:00 @wwqgtxx #2 没法实时吧 whisper 比其他语音输入猜得准就是靠用超大的 30s sliding window 做上下文解析的 |
![]() | 9 wseani OP |
![]() | 10 OliverDD 2023-04-06 14:28:08 +08:00 via iPhone ![]() 赞!好用 |
11 johannhuang 2023-04-06 16:58:36 +08:00 有趣的应用,虽然安装包有些大。还有一个遗憾,whisper 对硬件的要求低到移动设备就够了么?或者用起来有些“烧硬件”(用起来就卡一会儿)? |
12 johannhuang 2023-04-06 16:59:20 +08:00 (“遗憾”实为“疑惑”) |
![]() | 13 wankedKing 2023-04-06 17:08:00 +08:00 如果可以记录梦话就好玩了,让它在睡觉时检测声音,如果有音频就写入。 |
![]() | 14 wseani OP @johannhuang Whisper small 的参数量是 2 亿,不算很大,手机上应该是没问题的。不过发热会降低 Core ML 性能,所以长时间可能会卡,内存也会缓慢上升。 |
![]() | 15 wseani OP @wankedKing 我用过 SleepCycle 就支持记录梦话和打鼾,那个开一整晚挺耗电的,满电睡一晚第二天就剩 20%了。 |
![]() | 16 hackpro 2023-04-06 17:26:24 +08:00 via iPhone 可能的话可以支持下 iOS 15 吗 |
17 ShinomiyaKaguya 2023-04-06 19:09:45 +08:00 via iPhone 可以考虑做一个 mac 应用,然后允许上传音频或视频文件,语音转文字 |
18 Zchary 2023-04-06 20:35:49 +08:00 via iPhone 这个 app 体积主要是被 model 占用了吗? |
![]() | 20 wseani OP @ShinomiyaKaguya 因为是服务于我「不想在微信框打字」的需求,所以优先手机。Mac 端你可以搜 Aiko ,那个模型最大,最准确。 |
22 hanguofu 2023-04-06 21:26:22 +08:00 有没有人试过 用 普通话 的识别效果 ? |
23 bbbb 2023-04-07 15:38:02 +08:00 via iPhone @hanguofu 说了 1234 ,识别了好几分钟,出来了这个: One, two, three, four, five, six, seven, eight, nine, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten |
![]() | 26 b4115Z4mRAz9P8EA 2023-04-07 16:36:21 +08:00 超厉害的楼主,mac os m1 能支持吗?还是习惯用电脑。当前一打开,就报错。 |
![]() | 29 wseani OP @yqf0215 确实,我试了下自己的 Mac 也是: “This app has crashed because it attempted to access privacy-sensitive data without a usage description. The app's Info.plist must contain an com.apple.security.device.audio-input key with a string value explaining to the user how the app uses this data. ” 看上去是没加麦克风权限申请导致的。 |
![]() | 30 huazidev 2023-04-07 17:15:30 +08:00 请问用的哪个模型,各种语言支持的怎么样? |
![]() | 31 b4115Z4mRAz9P8EA 2023-04-09 11:30:07 +08:00 ![]() @wseani 坐等楼主更新,超级感谢。因为有朋友问我有没有类似的软件 |
![]() | 32 wseani OP @yqf0215 今天完成了 Mac 版开发,模型比 iOS 大,并且支持上传录音了。顺利的话,明天就可以在 Mac 商店下载啦!  |
![]() | 33 wseani OP |
![]() | 34 wseani OP @ShinomiyaKaguya Mac 版预计明天也可以下载啦 |
![]() | 35 saimax 2023-04-11 21:43:19 +08:00 via iPhone ![]() 我来补一下 mac 可以下载了 |
![]() | 36 neilp 2023-04-12 22:40:15 +08:00 有没有可能把这个稍微改一下, 改成一个能实时对话翻译的 app. 可以选择语言, 当然能自动识别语言更好. 然后, 实时互译. 支持自己提供 openai api key. |
![]() | 38 neilp 2023-04-13 13:18:21 +08:00 @wseani 前面最难的部分你这已经实现了. 后面就差调 api 翻译,并返回了. 这就能满足 99% 的用例了. 更进一步还可以朗读. |
![]() | 39 neilp 2023-04-13 13:20:54 +08:00 如果可以开源的话, 我愿意试试贡献. 虽然我目前还不会 ios |
![]() | 40 wseani OP @neilp 这并不是我的功劳,模型部分你可以看[whisper.cpp]( https://github.com/ggerganov/whisper.cpp)。在这个项目上我只是做了 UI+功能,以及中文的段落处理。之所以不用翻译 api ,是因为我希望这个 app 完全离线,一旦使用翻译 api ,这个软件将无法免费供人使用。 |
![]() | 41 neilp 2023-04-13 18:13:26 +08:00 翻译只是另外一个功能而已, 如果你能上架翻译功能, 很多人会付费. |
![]() | 43 huyinjie 2023-05-05 11:47:25 +08:00 支持!可以做个导入录音的功能吗 |
![]() | 45 Linvas 2023-07-18 17:47:36 +08:00 怎么做的训练? |
![]() | 46 xiaopavatar 114 天前 via iPhone 挺好用,请问最长支持多久的音频?我想做会议记录。 |