决策树易于理解和实现. 人们在通过解释后都有能力去理解决策树所表达的意义。
对于决策树,数据的准备往往是简单或者是不必要的 . 其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。
能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
对缺失值不敏感
可以处理不相关特征数据
效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。
对连续性的字段比较难预测。
对有时间顺序的数据,需要很多预处理的工作。
当类别太多时,错误可能就会增加的比较快。
一般的算法分类的时候,只是根据一个字段来分类。
在处理特征关联性比较强的数据时表现得不是太好
在决策树的各个节点上,使用信息增益(值越大,不确定性越小)作为属性的选择标准。
C4.5算法继承了ID3算法的优点并进行了改进:
用 信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
在树构造过程中进行剪枝;
能够完成对连续属性的离散化处理(既能处理离散型数据,又能处理连续型数据);
能够对不完整数据进行处理。
C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。
其缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
CART的全称(Classification And Regression Tree)是非参数分类和回归树,既可以做分类算法,也可以做回归。
CART算法采用一种二分递归分割的技术,与基于信息熵的算法不同,CART算法对每次样本集的划分计算GINI系数,GINI系数越小则划分越合理。CART算法总是将当前样本集分割为两个子样本集,使得生成的决策树的每个非叶结点都只有两个分枝。因此CART算法生成的决策树是结构简洁的二叉树。
当终点是连续变量时,该树为回归树;当终点是分类变量时,该树为分类树。
版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《【决策树】算法优缺点及ID3、C4.5、CART决策树算法简介》的版权归原作者「数据产品之道」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458
文章来源: 阅读原文
数据产品之道微信公众号:CR7_Data
手机扫描上方二维码即可关注数据产品之道微信公众号