sklearn 中的决策树 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yoggieCDA
V2EX    科技

sklearn 中的决策树

  •  
  •   yoggieCDA 2019-03-13 12:02:55 +08:00 2284 次点击
    这是一个创建于 2454 天前的主题,其中的信息可能已经有所发展或是发生改变。

    小伙伴们大家好~o( ̄ ̄)ブ,首先声明一下,我的开发环境是Jupyter lab,所用的库和版本大家参考:

    Python 3.7.1 (你的版本至少要 3.4 以上

    Scikit-learn 0.20.0 (你的版本至少要 0.20

    Graphviz 0.8.4 (没有画不出决策树哦,安装代码 conda install python-graphviz

    Nmpy 1.15.3, Pandas 0.23.4, Matplotlib 3.0.1, SciPy 1.1.0

    1. 决策树是如何工作的

    决策树( Decision Tree )是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。

    我们来简单了解一下决策树是如何工作的。决策树算法的本质是一种图结构,我们只需要问一系列问题就可以对数据进行分类了。比如说,来看看下面这组数据集,这是一系列已知物种以及所属类别的数据:

    DT1

    我们现在的目标是,将动物们分为哺乳类和非哺乳类。那根据已经收集到的数据,决策树算法为我们算出了下面的这棵决策树:

    DT2

    假如我们现在发现了一种新物种 Python,它是冷血动物,体表带鳞片,并且不是胎生,我们就可以通过这棵决策树来判断它的所属类别。

    可以看出,在这个决策过程中,我们一直在对记录的特征进行提问。最初的问题所在的地方叫做根节点,在得到结论前的每一个问题都是中间节点,而得到的每一个结论(动物的类别)都叫做叶子节点

    | 关键概念:节点 | | ------------------------------------------------------------ | | 根节点:没有进边,有出边。包含最初的,针对特征的提问。
    中间节点:既有进边也有出边,进边只有一条,出边可以有很多条。都是针对特征的提问。
    叶子节点:有进边,没有出边,每个叶子节点都是一个类别标签
    *子节点和父节点:在两个相连的节点中,更接近根节点的是父节点,另一个是子节点。 |

    2. 决策树算法的核心是什么

    决策树算法的核心是要解决两个问题:

    1 )如何从数据表中找出最佳节点和最佳分枝?

    2 )如何让决策树停止生长,防止过拟合?

    几乎所有决策树有关的模型调整方法,都围绕这两个问题展开。这两个问题背后的原理十分复杂,我会在讲解模型参数和属性的时候为大家简单解释涉及到的部分。在这里,我会尽量避免让大家太过深入到决策树复杂的原理和数学公式中(尽管决策树的原理相比其他高级的算法来说是非常简单了),专注于实践和应用。

    3. sklearn 中的决策树

    • 模块 sklearn.tree

    sklearn 中决策树的类都在” tree “这个模块之下。这个模块总共包含五个类:

    | tree.DecisionTreeClassifier | 分类树 | | ------------------------------ | ----------------------------------------- | | tree.DecisionTreeRegressor | 回归树 | | tree.export_graphviz | 将生成的决策树导出为 DOT 格式,画图专用 | | tree.ExtraTreeClassifier | 高随机版本的分类树 | | tree.ExtraTreeRegressor | 高随机版本的回归树 |

    我们会主要讲解分类树和回归树,并用图像呈现给大家。

    • sklearn 的基本建模流程

    在那之前,我们先来了解一下 sklearn 建模的基本流程。

    DT3

    在这个流程下,分类树对应的代码是:

    from sklearn import tree #导入需要的模块 clf = tree.DecisionTreeClassifier() #实例化 clf = clf.fit(X_train,y_train) #用训练集数据训练模型 result = clf.score(X_test,y_test) #导入测试集,从接口中调用需要的信息 

    4. 分类决策树的实现

    classsklearn.tree.DecisionTreeClassifier(criterion=’ gini ’, splitter=’ best ’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

    这里以 SKlearn 自带的红酒数据集为例,画一棵分类决策树。

    #导入需要的算法库和模块 from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split #探索数据 wine = load_wine() wine.data wine.data.shape wine.target wine.target.shape #如果 wine 是一张表,应该长这样: import pandas as pd pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1) wine.feature_names wine.target_names #切分训练集和测试集 Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3) Xtrain.shape Xtest.shape #建立模型 clf = tree.DecisionTreeClassifier() clf = clf.fit(Xtrain, Ytrain) score = clf.score(Xtest, Ytest) #返回预测的准确度 score #绘制树 import graphviz feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315 稀释葡萄酒','脯氨酸'] dot_data = tree.export_graphviz(clf ,out_file=None ,feature_names= feature_name ,class_names=["琴酒","雪莉","贝尔摩德"] ,filled=True ,rounded=True ) graph = graphviz.Source(dot_data) graph 

    最后绘制出来的树就长这个样子:

    决策树

    2 条回复    2021-01-02 13:40:18 +08:00
    wqzjk393
        1
    wqzjk393  
       2019-03-13 12:22:57 +08:00 via iPhone
    记得好像机器学习实战那本书就有使用 matplotlib 画决策树的思路和全部代码…
    FurN1
        2
    FurN1  
       2021-01-02 13:40:18 +08:00 via iPhone
    最近正在用 graphviz,前来点赞
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2420 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 05:54 PVG 13:54 LAX 21:54 JFK 00:54
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86