微软亚洲研究院开源分布式机器学习工具包 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
MSRA
V2EX    机器学习

微软亚洲研究院开源分布式机器学习工具包

  •  
  •   MSRA 2015-11-11 12:03:19 +08:00 2421 次点击
    这是一个创建于 3701 天前的主题,其中的信息可能已经有所发展或是发生改变。

    为了满足研究人员和开发者日益增长的各种需求,微软亚洲研究院于日前将分布式机器学习工具包( DMTK )通过 GitHub ( https://github.com/Microsoft/DMTK )开源。 DMTK 由一个服务于分布式机器学习的框架和一组分布式机器学习算法构成,是一个将机器学习算法应用在大数据上的强大工具包。

    无论是学术界的研究人员还是工业界的开发者, DMTK 可以帮助他们在超大规模数据上灵活稳定地训练大规模机器学习模型。当前版本的工具包包含以下几个部分:

    1 . DMTK 分布式机器学习框架:它由参数服务器和客户端软件开发包( SDK )两部分构成。参数服务器在原有基础上从性能和功能上都得到了进一步提升支持存储混合数据结构模型、接受并聚合工作节点服务器的数据模型更新、控制模型同步逻辑等。客户端软件开发包( SDK )支持维护节点模型缓存(与全局模型服务器同步)、节点模型训练和模型通讯的流水线控制、以及片状调度大模型训练等。

    2 . LightLDA : LightLDA 是一种全新的用于训练主题模型,计算复杂度与主题数目无关的高效算法。在其分布式实现中,我们做了大量的系统优化使得 LightLDA 能够在一个普通计算机集群上处理超大规模的数据和模型。例如,在一个由 8 台计算机组成的集群上,我们可以在具有 2 千亿训练样本( token )的数据集上训练具有 1 百万词汇表和 1 百万个话题( topic )的 LDA 模型(约 1 万亿个参数),这种规模的实验以往要在数千台计算机的集群上才能运行。

    3 . 分布式词向量:词向量技术近来被普遍地应用于计算词汇的语义表示,它可以用作很多自然语言处理任务的词特征。我们为两种计算词向量的算法提供了高效的分步式实现:一种是标准的 word2vec 算法,另一种是可以对多义词计算多个词向量的新算法。

    此外, DMTK 提供了丰富且易用的 API 接口,能够有效降低分布式机器学习的门槛。机器学习的研发人员只需要专注于数据、模型和模型训练等机器学习的核心逻辑部分。

    DMTK 还将在未来的版本中提供更多的功能和算法。我们希望开源分布式机器学习工具包可以促进学术界和工业界在大规模机器学习方面的创新。更多信息,请访问 http://www.dmtk.io/。

    3 条回复    2015-11-11 14:54:21 +08:00
    EchoChan
        1
    EchoChan  
       2015-11-11 13:04:57 +08:00
    Google 的 TensorFlow 开源了,微软不得不跟上啊~~
    l6751902
        2
    l6751902  
       2015-11-11 13:57:32 +08:00
    google 的昨天看上去貌似还不支持多机,微软这个在应用层面上算走在前面了,“我艹,他们都没做完放出来想找免费劳力啊,看我来打脸”
    longaiwp
        3
    longaiwp  
       2015-11-11 14:54:21 +08:00
    @EchoChan 先对比两家的功能再来评价一次
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3257 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is poered by solitude
    VERSION: 3.9.8.5 22ms UTC 04:48 PVG 12:48 LAX 20:48 JFK 23:48
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86