openai 正式开源了模型 gpt-oss-120b 和 gpt-oss-20b

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 69 天前的主题，其中的信息可能已经有所发展或是发生改变。

openai 博客： https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/

ollama 最新版本 0.11 也支持使用 gpt-oss-120b 和 gpt-oss-20b 进行网页搜索

gpt-oss-120b

gpt-oss-20b

ollama

20 条回复 2025-08-10 03:56:32 +08:00

Fike

69 天前 via iPhone

用 m1pro 16g 内存试了一下没运行起来

perfectlife

69 天前

16g 不够，20b 运行就需要 16g 显存了
~ ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b f2b8351c629c 18 GB 100% GPU 16384 4 minutes from now
@Fike

perfectlife

69 天前

@perfectlife 尴尬 18g

mumbler

69 天前

ollama 上的 gpt oss 20b 只要 14G 内存就能跑，总有 24G 内存就行，激活参数 3B ，cpu 应该也能 10t/s 以上速度

Cooky

69 天前

@mumbler 得啥级别的 cpu ？纯 cpu 能跑到 gpt3 的话感觉穷人可以折腾玩玩了

wwhc

69 天前

llama.cpp 运行 gpt-oss-20b-mxfp4 生成回答的速度比 Qwen3 30B 快一倍，一般的电脑就完全可用，但生成回答的质量略不如 Qwen3 30B ，如果内存足够大，gpt-oss-120b-mxfp4 的速度也只比 Qwen3 30B 慢一点，但生成回答的质量要高。但 openai 的这两个模型就像是开源模型的初学者，仍不成熟，实际上不如 Qwen 好用

mumbler

69 天前

@Cooky #5 支持 avx2 指令集的就行可以本地跑大模型，2013 年以后的主流 CPU 都支持

perfectlife

69 天前

@wwhc 感觉 20b 速度是很惊喜,20b 的模型回答速度比 deepseek-r1:7b 都快，120b 的看别人用 4*2080ti 22gb 跑内存用了 99g
我 mba 跑了一下 20b 速度还行
total duration: 1m55.383030709s
load duration: 67.649875ms
prompt eval count: 135 token(s)
prompt eval duration: 1.439831542s
prompt eval rate: 93.76 tokens/s
eval count: 983 token(s)
eval duration: 1m53.836651375s
eval rate: 8.64 tokens/s

sakeven

69 天前

openai web 居然支持中文了

BingoXuan

69 天前

120B 的质量勉强可用，20B 回答不太行

haodingzan

69 天前

掏出了吃灰的 NUC9 ，i7-9850H ，32G 内存，无独显，20B 能跑，内存占用 15G 。
total duration: 28.0584624s
load duration: 69.4942ms
prompt eval count: 81 token(s)
prompt eval duration: 2.1671938s
prompt eval rate: 37.38 tokens/s
eval count: 94 token(s)
eval duration: 25.8144678s
eval rate: 3.64 tokens/s

spike0100

69 天前

让 20b 背诵将进酒，好像结果有点不尽人意。

wwhc

69 天前

背唐诗宋词 Qwen3 2507 版很强，openai_gpt-oss-20b-MXFP4 在 Epyc 7532 8 通道 ddr4 系统上的速度是：
prompt eval time = 113.29 ms / 14 tokens ( 8.09 ms per token, 123.58 tokens per second)
eval time = 12243.52 ms / 466 tokens ( 26.27 ms per token, 38.06 tokens per second)
total time = 12356.81 ms / 480 tokens

x4gz

69 天前 via iPhone

@spike0100 知识都学杂了

perfectlife

69 天前

@spike0100 ollama 命令行里思考过程简直像打架一样，乱得很还慢，thinking 好几分钟，开启联网搜索结果会好点，这个就是对的
https://imgur.com/a/zoUtUrH

liu731

PRO

69 天前

跑了下 20b ，主观感受比 llama 和 mistral 强

cloverzrg2

68 天前

@perfectlife #8 速度快是因为，deepseek-r1:7b 激活参数是 7b ，gpt-oss-20b 激活参数 3.6b
https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/

YsHaNg

68 天前 via iPhone

@wwhc 我用 ollama 反而感觉 20b 不如 qwen3:30b 可能我用老卡 mxfp4 上下预分配很傻 16k 上下文 graph cache 全分配到 vram 上 weights 只能 offload7 层基本全是 cpu 在跑相比起来 qwen3 架构高效很多 offload 超过 1/3 层数 gpu 计算占比大很多输出质量没太大感觉毕竟同级别还有 qwen3:30b-a6b 这种东西存在

iorilu

67 天前

能不能把 gpt3.5 开源, 本地跑都有价值阿

cloverzrg2

65 天前

@iorilu #19 gpt3.5 是千亿参数你本地跑不起来，模型比较落后比不上 qwen3-30b ，对个人没有意义. 其他公司作思路参考倒是可以
https://llm-stats.com/models/compare/gpt-3.5-turbo-0125-vs-qwen3-30b-a3b