M3 Max 的神经引擎是否已经不够看了? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
oppurst
V2EX    Apple

M3 Max 的神经引擎是否已经不够看了?

  •  
  •   oppurst 2023-11-01 15:01:05 +08:00 4637 次点击
    这是一个创建于 717 天前的主题,其中的信息可能已经有所发展或是发生改变。

    从 M1 Max 开始,M 家族的 Neural Engine 就一直都是 16 核,Max 系列算力也从 11 TOPS 涨到目前的 18 TOPS ( https://www.anandtech.com/show/21116/apple-announces-m3-soc-family-m3-m3-pro-and-m3-max-make-their-marks ),不过讲真在现在这个时间节点,这点能力还是不够看啊。

    毕竟隔壁高通的骁龙 X Elite 中集成的 Hexagon NPU 算力都怼到 45 TOPS 了,主打就是一个 LLM 的能力作为宣传的噱头。

    这么看的话,用新的 M3 Max 来跑本地大模型似乎不怎么靠谱啊,也难怪发布会上都不咋提 ML 或 AI 能力的。所以,到底要不要换机啊,感觉下一代芯片的 AI 算力应该会得到强化,要不要再等一等...

    26 条回复    2023-12-26 14:55:28 +08:00
    lqcc
        1
    lqcc  
       2023-11-01 15:21:39 +08:00   1
    A16 NPU 17 TOPS, A17 pro NPU 35 TOPS.
    oppurst
        2
    oppurst  
    OP
       2023-11-01 15:26:28 +08:00
    @lqcc 想想就很吓人... 手机比笔记本电脑算力更猛可敢信...
    chonger
        3
    chonger  
       2023-11-01 15:30:13 +08:00
    跑大模型不是和显卡和显存有关吗? 4090 有 npu 吗?这点不太清楚,有人知道的话请指教
    nicoljiang
        4
    nicoljiang  
    PRO
       2023-11-01 15:35:24 +08:00
    @oppurst 主要是 A17pro 支持 int8 ,35 应该是 8 的性能,M3 的 18 应该是指 16 的性能
    lqcc
        5
    lqcc  
       2023-11-01 15:54:44 +08:00
    @nicoljiang 根据这篇文章所说,如果统一以 INT16 标准,那 M1/M2/M3 对应的 NPU 分别是 11 、15.8 、18 TOPS 。A16 与 A17 Pro NPU 速度差不多,都为 17 TOPS 左右。不同的是 A17 Pro 支持 INT8 。
    sharpy
        6
    sharpy  
       2023-11-01 16:1:52 +08:00
    用 metal 跑在 GPU 上啊
    wpyfawkes
        7
    wpyfawkes  
       2023-11-01 16:37:06 +08:00
    @chonger AI 推理和训练就是不断的在统计概率.于是理论上所有能浮点计算的设备都可以用来跑大模型.只要能接受龟速,CPU + 硬盘都能跑.
    xixun
        8
    xixun  
       2023-11-01 16:40:16 +08:00 via iPhone
    今年 m3m 最大显存倒是升级了
    Rorysky
        9
    Rorysky  
       2023-11-01 16:44:10 +08:00
    苹果的 AI 战略确实落后,不知道是不是再憋大招
    Mark24
        10
    Mark24  
       2023-11-01 16:44:27 +08:00
    隔壁 骁龙 X Elite 是 PPT ,预计明年年中才上市。

    M 家族是现货

    你让骁龙现在就拿出来卖啊 :D
    xixun
        11
    xixun  
       2023-11-01 16:45:54 +08:00 via iPhone
    @lqcc A17pro 是 35TFlops 吧
    lqcc
        12
    lqcc  
       2023-11-01 16:47:39 +08:00
    @xixun A17 Pro 那是以 INT8 计算的,要是按照 INT16 计算,要打折。
    wanguorui123
        13
    wanguorui123  
       2023-11-01 16:51:37 +08:00
    A17 Pro 的制程红利基本上全部用到 NPU 上了达到 35T
    lqcc
        14
    lqcc  
       2023-11-01 17:09:44 +08:00
    @wanguorui123 根据我看到的文章,这个 35 TOPS 可能是 INT8 跑出来的,苹果其它 A 系 M 系芯片跑分是 INT16/FP16 。所以这个 35T 要打对折。
    xixun
        15
    xixun  
       2023-11-01 17:19:14 +08:00 via iPhone   1
    高通那个不是 int4 吗
    lqcc
        16
    lqcc  
       2023-11-01 17:26:43 +08:00
    @xixun 没错,高通 X Elite 45 TOPS 是 INT4 跑出来的。
    xixun
        17
    xixun  
       2023-11-01 17:28:32 +08:00 via iPhone
    @lqcc https://machinelearning.apple.com/research/neural-engine-transformers https://www.apple.com/by/iphone-13-pro/ https://www.apple.com/go/2022/iphone-14-pro/
    都以 fp16 计算 13pro 官网说是 15.8 万亿次是 15.8TFlops 14p 是 17 万亿次 15p 提升一倍理应也是 35TFlops
    lqcc
        18
    lqcc  
       2023-11-01 17:39:07 +08:00
    @xixun A15/A16/A17 pro 神经网络引擎都是 16 核心,A15 是 15.8 TOPS ,A16 是 17 ,A17 pro 再打鸡血,也不能在不增加核心数目的前提下跑分达到上一代的 2 倍吧。
    lqcc
        19
    lqcc  
       2023-11-01 17:43:56 +08:00
    @xixun 可以参考 Geekbench 6 ML 跑分。数据表明,A17 pro 的 npu 跑分比 A16 的分数也就提高了 10%左右吧。
    xixun
        20
    xixun  
       2023-11-01 17:46:28 +08:00 via iPhone
    @lqcc 但 Apple 官网 A17Pro 说的是两倍速度,就算隔代比两倍那也有 30 多 TFlops
    orangie
        21
    orangie  
       2023-11-01 17:47:20 +08:00
    终端机器,移动设备,跑大模型,短期内我是不信的,蹭热点罢了。短期内就算浮点性能和内存够用,移动设备的电池不适合。之前吹 npu 的时候,也没见有什么终端上的智能应用能改善体验,唯一明显的就是各家都开始用模型来给相机 P 图了。
    lqcc
        22
    lqcc  
       2023-11-01 17:56:27 +08:00
    @xixun 这个两倍不知道苹果按什么计算的。

    感兴趣可以看看这个文章: https://www.photoroom.com/inside-photoroom/core-ml-performance-benchmark-2023-edition

    神经引擎跑分,A17 pro 大概比 A16 提升 16%。看看以后有没有新的消息出来。
    neopenx
        23
    neopenx  
       2023-11-01 18:20:19 +08:00
    ANE 需要走 CoreML 跑。18T 应该就是 FP16 的设计峰值。
    要是通过 GPU 走 Metal 的话,满血 M2 Max 的 FP32 才 14T 。
    苹果短期内应该不打算融合 ANE 和 GPU ,也就是维持 ANE 以低功耗优势,继续挤牙膏。
    鬼知道几年后可以追平 3060 的 50T FP16 TensorFlops 设计峰值。
    xinyu198736
        24
    xinyu198736  
       2023-11-01 19:00:37 +08:00
    苹果跑大模型最大的问题是他的内存管理机制不是很可控,当大模型内存快占满的时候,内存容易被分走,导致模型迅速变慢。。
    nicoljiang
        25
    nicoljiang  
    PRO
       2023-11-02 15:04:40 +08:00
    @xixun 不太相信同厂商自己的 同制程 同代际 芯片中 移动芯片某项数值能吊打桌面芯片。
    LuvLetter
        26
    LuvLetter  
       2023-12-26 14:55:28 +08:00
    @lqcc 有的应用是 memory bound, 瓶颈不在算力; ANE 这种 ASIC 不能单看核数, 还得看架构;
    @nicoljiang ANE 一直都支持 int8, 没有 A17Pro 才支持 int8 的说法, 4bit 也很早就有了
    https://developer.apple.com/wwdc23/10047
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2537 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 19ms UTC 11:56 PVG 19:56 LAX 04:56 JFK 07:56
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86