据说这是目前全世界最快的文本推理速度 - V2EX
HMYang33

据说这是目前全世界最快的文本推理速度

  •  
  •   HMYang33 1 day ago 2484 views
    下面是我自己搭桥过来的体验页,国内有一部分网络环境会发不出请求,也有可能打不开页面,换成 wifi 或者流量多试一试。

    http://hmyang33.3vfree.vip/fast_llm/

    搭桥链路:cerebras.ai <-> vercel 免费美国节点 <-> 廉价的香港 VPS <-> 廉价的香港静态页托管

    因为接入的都是廉价或免费的服务,体验的人又很多,源头 cerebras.ai 给的免费 api 也有很多限制,vercel 也可能会偶尔出问题。

    所以不稳定是常见的,出错就稍后再试试,主要是给兄弟们体验一下世界最快的 token 生成速度。

    cerebras.ai 是源头,标称 gpt-oss-120b 每秒生成 3k 个词元,个人实际体验就 1.7k 左右

    ---------
    不要说 apikey 暴露的问题了,反正是免费的 key ,无门槛申请点击就送
    Supplement 1    1 day ago
    我的免费 api 今日限额了,自己搭建或者明天再来体验吧
    22 replies    2026-06-04 09:59:04 +08:00
    clemente
        1
    clemente  
       1 day ago
    其实是模型拆到 硬件的 sip core 里面了 通常只能定制模型
    monkey110
        2
    monkey110  
       1 day ago
    真快,我还在等一字字吐的时候直接腹泻式刷了一大页
    fe619742721
        3
    fe619742721  
       1 day ago
    这速度确实有点夸张,如果最近的模型能做到这个速度,agent 执行会快很多啊。。这个模型能力怎么样,gpt-oss-120b
    maskerTUI
        4
    maskerTUI  
       1 day ago
    快的有点离谱了
    7gugu
        5
    7gugu  
       1 day ago
    非常看好这个方向,模型硬件化只是迟早的事情,成本都是可以优化的
    tf2
        6
    tf2  
       1 day ago
    全世界最快?

    https://chatjimmy.ai/

    不服来比比?
    HMYang33
        7
    HMYang33  
    OP
       1 day ago
    @tf2 被吓到了,快的跟假的一样
    HMYang33
        8
    HMYang33  
    OP
       1 day ago
    @tf2 不过模型质量有点太差了,代码很空洞,翻译牛头不对马嘴,普通的问题基本得不到有价值的答案
    tf2
        9
    tf2  
       1 day ago
    @HMYang33 Llama 3.1 8B 老模型了。这个也是“电路焊死” 那种没法升级模型的。
    loveshuyuan
        10
    loveshuyuan  
       1 day ago
    为啥我的号没有免费额度
    xing7673
        11
    xing7673  
       1 day ago
    之前用 cerebras 来处理我的一个 agent ,没有用流式 completion ,还感受不到它有多快,这个确实很快
    memos
        12
    memos  
       1 day ago
    小孩吓哭了,真快
    busln
        13
    busln  
       1 day ago
    @tf2 还要高手?
    0754
        14
    0754  
       1 day ago
    卧槽???
    Kiriya
        15
    Kiriya  
       1 day ago
    这速度离谱啊,这已经不是在烧 token 了,而是在核爆 token 了
    regent
        16
    regent  
       1 day ago
    这家的免费 key 是有每分钟和每日请求量限制的,不过确实很快,不体验不知道其先进性
    popyui
        17
    popyui  
       1 day ago
    400token/s
    燃起来了
    Tink
        18
    Tink  
    PRO
       1 day ago
    牛逼
    Tink
        19
    Tink  
    PRO
       1 day ago
    @tf2 #6 这是真的还是假的?
    tf2
        20
    tf2  
       1 day ago
    Tink
        21
    Tink  
    PRO
       1 day ago
    @tf2 #20 别管对不对,你就说快不快就完了
    tf2
        22
    tf2  
       1 day ago
    @Tink 它家这个技术路线必须根据模型定制电路。周期很长。立项的时候开源模型 qwen 2.x 之类的恐怕更烂。

    这个 demo 而且走的是一个很偏门的 q3 量化。所以效果不好

    但是足以证明技术路线没问题。如果能搞出来个 qwen3.6 27B 就会吓死人。
    About     Help     Advertise     Blog     API     FAQ     Solana     5751 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 61ms UTC 02:26 PVG 10:26 LAX 19:26 JFK 22:26
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86