决策树归纳17 Mar 2025 | 4 分钟阅读 决策树是一种监督学习方法,用于数据挖掘中的分类和回归方法。它是一种有助于我们做出决策的树。决策树以树形结构创建分类或回归模型。它将数据集分割成更小的子集,同时,决策树不断地被构建。最终的树是具有决策节点和叶节点的树。决策节点至少有两个分支。叶节点表示分类或决策。我们无法在叶节点上进行进一步分割——树中与最佳预测变量相关的最上面的决策节点称为根节点。决策树可以处理分类数据和数值数据。 关键因素熵熵是指衡量不纯度的一种常用方法。在决策树中,它衡量数据集中的随机性或不纯度。 ![]() 信息增益 (Information Gain)信息增益是指数据集分割后熵的减少。它也被称为熵减少。构建决策树就是寻找能够产生最高数据增益的属性。 ![]() 简而言之,决策树就像一个流程图,其中终端节点表示决策。从数据集开始,我们可以测量熵来找到分割数据集的方法,直到数据属于同一类。 为什么决策树有用?它使我们能够全面分析决策的可能后果。 它为我们提供了一个框架来衡量结果的价值和实现它们的概率。 它帮助我们根据现有数据和最佳推测做出最佳决策。 换句话说,我们可以说决策树是一种层次化的树形结构,可以通过实施一系列简单的决策规则来将大量记录分割成更小的类别集合。决策树模型包含一套规则,用于将一个大的异质群体分割成更小、更同质或互斥的类别。类别的属性可以是名义、有序、二元和定量值中的任何变量,而类别则必须是定性类型,例如分类、有序或二元。总之,给定属性及其类别的数据,决策树会创建一组可用于识别类别的规则。一条规则接一条规则地实现,从而在细分内产生一个层次结构。这种层次结构称为树,每个细分称为一个节点。随着每个连续的分割,后续集合的成员彼此之间变得越来越相似。因此,用于构建决策树的算法被称为递归分区。该算法称为CART(分类和回归树)。 考虑一家工厂的以下示例: ![]() 扩张因素成本 300 万美元,经济良好(好经济)的概率为 0.6(60%),可带来 800 万美元的利润;经济不景气(坏经济)的概率为 0.4(40%),可带来 600 万美元的利润。 不扩张因素,成本为 0 美元;经济良好(好经济)的概率为 0.6(60%),可带来 400 万美元的利润;经济不景气(坏经济)的概率为 0.4,可带来 200 万美元的利润。 管理团队需要根据给定数据做出数据驱动的决策,决定是否扩张。 净扩张 = ( 0.6 * 8 + 0.4*6 ) - 3 = 420 万美元 决策树算法决策树算法看起来可能很长,但它非常简单,基础算法技术如下: 该算法基于三个参数:D、attribute_list 和 Attribute_selection_method。 通常,我们将D称为数据分区。 最初,D是整个训练元组及其相关的类别级别(输入训练数据)的集合。 参数attribute_list是定义元组的属性集。 Attribute_selection_method指定一种启发式方法,用于根据类别选择“最佳”区分给定元组的属性。 Attribute_selection_method过程应用属性选择度量。 使用决策树的优点决策树不需要对信息进行缩放。 数据中的缺失值也不会对构建决策树的过程产生太大影响。 决策树模型是自动的,易于向技术团队和利益相关者解释。 与其他算法相比,决策树在预处理的数据准备方面需要更少的精力。 决策树不需要数据标准化。 下一主题教育数据挖掘 |
我们请求您订阅我们的新闻通讯以获取最新更新。