机器学习日报 2015-01-21 用 MeCab 打造一套实用的中文分词系统 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
haoawesome
V2EX    机器学习

机器学习日报 2015-01-21 用 MeCab 打造一套实用的中文分词系统

  •  
  •   haoawesome 2015-01-22 07:32:58 +08:00 1981 次点击
    这是一个创建于 3994 天前的主题,其中的信息可能已经有所发展或是发改变。

    @好东西传送门 出品, 过刊见 http://ml.memect.com

    订阅:给 [email protected] 发封空信, 标题: 订阅机器学习日报

    可点击加长版48条 http://memect.co/ml-list-2015-01-21


    用MeCab打造一套实用的中文分词系统

    @52nlp

    关键词:经验总结, 自然语言处理, 博客

    用MeCab打造一套实用的中文分词系统: MeCab是一套优秀的日文分词和词性标注系统,基于CRF打造,有着诸多优点,代码基于C++实现,基本内嵌CRF++代码,性能优良,并通过SWIG提供多种语言调用接口, 可扩展性和通用性都非常不错。这篇博客尝试基于MeCab训练一套中文分词系统,欢迎观摩 [1]

    [1] http://www.52nlp.cn/?p=6932

     


    讨论:饶毅:AI暂时还是伪智能

    @36氪

    关键词:Andrew Ng, 霍金, 饶毅, 新闻

    生物学家饶毅:AI = Artificial Intelligence,暂时还是伪智能 | 前一阵子我们报导过 “科学界和企业界大佬联名公开信:警惕可能失控的人工智能”,不过对于AI,生物学家饶毅将其称为“伪智能“。来听听看他的见解吧: [1]

    [1] http://www.36kr.com/p/218928.html html

    讨论:饶毅:AI暂时还是伪智能

     


    Mining a VC:文本分析风险投资家关注什么

    @爱可可-爱生活

    关键词:经验总结, 自然语言处理, Fred Wilson, 博客

    《Mining a VC》文本分析的好范例,分析了作为知名VC的Fred Wilson从2003年到2014年发表的所有博客文章,从中发现他的热门关键词、主要主题、各主题代表文章、各主题随时间变化趋势等,可作为文本计算入门范文 [1]

    [1] http://bugra.github.io/work/notes/2015-01-17/mining-a-vc/

    Mining a VC:文本分析风险投资家关注什么

     


    一些关键词提取的工具

    @好东西传送门

    关键词:自然语言处理, Python, 代码, 主题模型

    一些关键词提取的工具rake [1] KEA [2] maui-indexer [3] 中文分词工具也有关键词提取,例如jieba [4] Yaha [5] 另外原则上各种主题模型工具都可以改造来用。进阶阅读Quora贴 [6]

    [1] https://pypi.python.org/pypi/rake

    [2] http://www.nzdl.org/Kea/description.html html

    [3] http://maui-indexer.appspot.com/mauiapp

    [4] https://github.com/fxsjy/jieba

    [5] https://github.com/jannson/yaha

    [6] http://www.quora.com/What-are-good-tools-to-extract-key-words-and-or-topics-tags-from-a-random-paragraph-of-text

    一些关键词提取的工具

     


    Rabit:兔子和分布式机器学习

    @陈天奇怪

    关键词:算法, 集成学习

    #分布式机器学习# [1] 我在上个学期完成的分布式可容错机器学习通信库,以及大规模boosted tree (GBDT) 的介绍

    [1] http://weibo.com/p/1001603801281637563132

    目前尚无回复
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3452 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 05:04 PVG 13:04 LAX 21:04 JFK 00:04
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86