Rust 用于机器学习的一个小的尝试: bleuscore - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
huangyezhufeng
V2EX    分享创造

Rust 用于机器学习的一个小的尝试: bleuscore

  •  1
     
  •   huangyezhufeng
    shenxiangzhuang 2024-08-14 12:57:48 +08:00 2416 次点击
    这是一个创建于 472 天前的主题,其中的信息可能已经有所发展或是发生改变。

    TLDR

    Why

    • Huggingface 的 Evaluate 库真的不好用,且慢,见issue
    • Talk is cheap: 看了太多和 Rust 相关的争论,还是决定动手写一下再做判断
    • BLEU 的计算是难度相对较低,比较适合作练习的项目

    Overview

    • Rust 实现 BLEU Score 计算(采用和 Huggingface evaluate完全一致的算法),通过 Binding 构建 Python 库

    • 做了大量的结果对比测试来保证此 Rust 实现的结果和 Huggingface 结果是一致的

      • 基于 Hypothesis ,一个仿 Haskell QuickCheck 的 property test 库
    • 做了较为充分的 Benchmark 来测试当前 Rust 实现的性能

    初步结论

    • 开发体验: 总体的过程(编译,测试,文档,依赖管理等)还是很丝滑的(个人之前并没有太多 Rust 基础),主要得益于 Rust 完整的生态
    • 机器学习: 当算法正已经在 Python 实现,想追求更好的性能时,用 Rust 来实现算法可以有效提升算法运行效率(同时可以用 Python 实现来验证当前 Rust 实现的正确性)。另外就是Rust 实现后通过 Binding 构建 Python 库是非常简单的(PyO3/Maturin),线上的业务一样可以依赖 Python 开发, 这点对于机器学习系统来说还是非常友好的。
    • 性能: 当前 bleuscore 的性能提升在大规模数据集上更为显著,性能提升主要来自目前的实现用了多核并行(基于 rayon)。在数据集本身比较小或没有使用多核时,其实性能提升并不大(详情见 Benchmark )

    最后

    欢迎理性讨论,欢迎 PR !

    3 条回复    2024-08-14 13:46:39 +08:00
    huangyezhufeng
        1
    huangyezhufeng  
    OP
       2024-08-14 13:11:55 +08:00
    如果想进一步探索 Rust 用于机器学习的最佳实践,可以通过这个 issue(及其背后的项目)来进一步了解: https://github.com/dustalov/evalica/issues/5

    这是一位能力很强的老哥,代码质量也很高。
    Contextualist
        2
    Contextualist  
       2024-08-14 13:27:33 +08:00   1
    感谢分享!支持一下 Rust for ML 和 PyO3
    上次看相关方面还是 https://www.arewelearningyet.com ,不知道现在的生态怎么样了
    能想到的 Rust for ML 的代表项目应该是 huggingface/safetensors 了
    huangyezhufeng
        3
    huangyezhufeng  
    OP
       2024-08-14 13:46:39 +08:00   1
    @Contextualist 感觉现在相关的生态都在快速的完善起来吧。Huggingface 在挺多的项目上都在拥抱 Rust: https://github.com/huggingface?q=&type=all&language=rust&sort=, 其中 candle ,tokenizer ,text-embeddings-inference 是比较知名的。

    其他我了解到的比如 Grafana 也在用 Rust 做 ML 相关的工作,比如 https://github.com/grafana/augurs, 用在 Grafana 时序数据的预测和异常检测等。
    div id="Bottom">
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2645 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 14:31 PVG 22:31 LAX 06:31 JFK 09:31
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86