关于手机/车机侧开发语音助手，本地部署 AI 小模型

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

我想做一个语音助手，现在有两种场景，联网和断网。断网下我想部署一个端侧的小模型处理我的指令，不知道现在有哪些开源模型可以使用？

语音助手

端侧小模型

开源模型

18 条回复 2025-09-26 17:00:24 +08:00

coefu

15 天前

想一想就行了，目前你这个想法整个业界也没有什么 80 分的方案。

Solix

15 天前

？？？别闹了，7b 全精度显存需求：大约 28~32 G ，量化 8/16G 能运行，然后跑起来有啥用，它能搞指令遵循还是结构化？

maokg

15 天前

@Solix 不用很复杂，断网环境下能识别到播放音乐、打开车窗这类简单指令就可以，但准确度可能要高一点

play78

15 天前

如果只是固定单词指令，现在 AIOT 芯片和方案就有现成的。便宜的几毛钱的芯片就内置了。淘宝搜索“LED 语音灯”，准确率比大模型准非常多。

maokg

15 天前

@play78 感谢，我了解一下

jacketma

15 天前

自己部署这个就可以 huggingface.co/Qwen/Qwen2.5-Omni-7B

bigtear

15 天前

小米的智驾用的是一个 128g 显存的 NVIDIA 开发版，你可以试试能不能调用它

otakustay

15 天前

@Solix 车机有限场景下的指令遵循，Siri 的水平就够了，Siri 这方面可是纯端的，哪需要 7B 这么大规模

ca2oh4

15 天前

固定指令的话，乐鑫都有成熟的方案可直接用了

imliuruiqi

15 天前

非要本地的话也有一些量化后的小模型，但效果可能需要你自己实验一下相关研究可以顺着 huggingface 的 smollm 去找： https://huggingface.co/blog/smollm

Tink

PRO

15 天前

@maokg #3 单纯指令的话，看一下机芯智能的离线语音模块 su03t ，还有天问的 asr 系列，都可以满足。我在家里的智能家居控制用的都是这些

skallz

15 天前

我觉得你这个方案就想错了，应该是做一个语音识别，然后根据关键词，去做对应的操作，而不是接入 llm 大模型。。。

me15000

15 天前

@coefu 到处都能看到这个喷子，你到底懂不懂啊，不懂别瞎逼逼行不行

humminwang

15 天前

gemma 3 270m 可以试试 500 多 MB 内存即可

wheat0r

15 天前

我理解这个 OP 的这个逻辑，人是很复杂的，很多时候用户并不会给出指定的指令，确实需要端侧具有一定的思考能力。
比如用户可能并不会说“播放歌曲千万次的问”，而是说“给老子整个刘欢那个 ask 啥的歌”

op351

14 天前

@wheat0r 我想了想离网做了这个也没啥用因为音乐软件还是要联网搜索，然后播放哈哈

maokg

14 天前

@wheat0r 对，bro ，你懂我。没联网其实有 USB 音乐 @op351 哈哈哈哈哈，我最需要的想法就是精确解析出用户的意图。

maokg

14 天前

@jacketma @ca2oh4 @imliuruiqi @Tink @humminwang 感谢，我去了解一下