推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 马玉杰 > 【决策树】算法优缺点及ID3、C4.5、CART决策树算法简介

【决策树】算法优缺点及ID3、C4.5、CART决策树算法简介

马玉杰 2018-10-18

1. 决策树算法优缺点

优点

  1. 决策树易于理解和实现. 人们在通过解释后都有能力去理解决策树所表达的意义。

  2.  对于决策树,数据的准备往往是简单或者是不必要的 . 其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。

  3. 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。

  4. 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

  5. 对缺失值不敏感

  6. 可以处理不相关特征数据

  7. 效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。


缺点

  1. 对连续性的字段比较难预测。

  2. 对有时间顺序的数据,需要很多预处理的工作。

  3. 当类别太多时,错误可能就会增加的比较快。

  4. 一般的算法分类的时候,只是根据一个字段来分类。

  5. 在处理特征关联性比较强的数据时表现得不是太好


2.  ID3、C4.5、CART

ID3

在决策树的各个节点上,使用信息增益(值越大,不确定性越小)作为属性的选择标准。


C4.5

C4.5算法继承了ID3算法的优点并进行了改进:

  • 用 信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

  • 在树构造过程中进行剪枝

  • 能够完成对连续属性的离散化处理(既能处理离散型数据,又能处理连续型数据);

  • 能够对不完整数据进行处理。

C4.5算法有如下优点:产生的分类规则易于理解,准确率较高

其缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

CART

CART的全称(Classification And Regression Tree)是非参数分类和回归树,既可以做分类算法,也可以做回归。

CART算法采用一种二分递归分割的技术,与基于信息熵的算法不同,CART算法对每次样本集的划分计算GINI系数,GINI系数越小则划分越合理。CART算法总是将当前样本集分割为两个子样本集,使得生成的决策树的每个非叶结点都只有两个分枝。因此CART算法生成的决策树是结构简洁的二叉树

当终点是连续变量时,该树为回归树;当终点是分类变量时,该树为分类树。

3.  决策树剪枝


版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《【决策树】算法优缺点及ID3、C4.5、CART决策树算法简介》的版权归原作者「数据产品之道」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读