Stable Fast: 超轻量级 Stable Diffusion 推理优化框架 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
nethard
V2EX    Stable Diffusion

Stable Fast: 超轻量级 Stable Diffusion 推理优化框架

  •  
  •   nethard 2023-10-17 18:26:22 +08:00 2263 次点击
    这是一个创建于 729 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人第一个正式开源项目,欢迎大家关注!聚焦于推理优化领域,希望能帮助到有相关模型推理加速需求的朋友,或者希望学习这方面知识的朋友。

    项目主页

    这是什么?

    stable-fast 是一个为 HuggingFace DiffusersNVIDIA GPUs 上的超轻量级推理优化库。 stable-fast 通过利用一些关键技术和特性提供超快的推理优化:

    • __CUDNN 卷积融合__:stable-fast 为各种组合的 Conv + Bias + Add + Act 计算模式实现了一系列功能齐全且完全兼容的 CUDNN 卷积融合运算符。
    • __低精度 & 融合的 GEMM__:stable-fast 实现了一系列使用 fp16 精度的融合 GEMM 运算符,这比 PyTorch 的默认设置更快(以 fp16 读取和写入,以 fp32 计算)。
    • __NHWC & 融合的 GroupNorm__:stable-fast 使用 OpenAI 的triton实现了高度优化的融合的 NHWC GroupNorm + GELU 运算符,消除了内存格式排列运算符的需要。
    • __完全追踪的模型__:stable-fast 改进了 torch.jit.trace 接口,使其更适合追踪复杂模型。几乎每一部分的 StableDiffusionPipeline 都可以被追踪并转换为 __TorchScript__。它比 torch.compile 更稳定,并且比 torch.compile 的 CPU 开销明显小,并支持 ControlNet 和 __LoRA__。
    • __CUDA Graph__:stable-fast 可以将 UNet 结构捕获到 CUDA Graph 格式,当批量大小小时可以减少 CPU 开销。
    • __融合的多头注意力__:stable-fast 仅仅直接使用 xformers 并使其与 TorchScript 兼容。

    与其他加速库的差异

    • __快速__:stable-fast 是专门为 HuggingFace Diffusers 优化的。它在所有库中都实现了最佳性能。
    • __简约__:stable-fast 作为 PyTorch 的一个插件框架工作。它利用现有的 PyTorch 功能和基础设施,并与其他加速技术兼容,以及流行的微调技术和部署解决方案。

    性能比较

    A100 SXM 80GB (SD v1.5, 512x512, fp16)

    框架 性能
    Vanilla PyTorch 23 it/s
    AITemplate 44 it/s
    TensorRT 52 it/s
    OneFlow 55 it/s
    Stable Fast (与 xformers & triton 共同工作) 60 it/s

    RTX 3090 Ti (SD v1.5, 512x512, fp16)

    框架 性能
    Vanilla PyTorch 16 it/s
    AITemplate 31 it/s
    TensorRT 33 it/s
    OneFlow 39 it/s
    Stable Fast (与 xformers & triton 共同工作) 38 it/s
    3 条回复    2023-10-27 21:25:31 +08:00
    eleganceoo
        1
    eleganceoo  
       2023-10-20 09:19:43 +08:00
    虽然看不懂,感觉挺厉害的
    nethard
        2
    nethard  
    OP
       2023-10-24 22:07:22 +08:00
    @eleganceoo 好像国内关注这个的比较少
    DanielNg23
        3
    DanielNg23  
       2023-10-27 21:25:31 +08:00
    大佬收下我的膝盖!要不要来我们这边打一下黑客马拉松,有国内 LLM 厂商的支持,线上/线下均可参加,来线下能提供 7 天住宿顺便来大理到处玩玩,最高有 AWS 提供的 2.5 万美金算力支持 https://mp.weixin.qq.com/s/MTqByjk8j_ekAMfcxgtP1g
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3879 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 19ms UTC 00:08 PVG 08:08 LAX 17:08 JFK 20:08
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86