Bagging 决策树

2025年1月7日 | 阅读 12 分钟

Bagging,是 Bootstrap Aggregating 的缩写,是一种通过迭代重采样技术(有放回)从原始数据集中抽取多个不同训练集的方法,目的是创建许多经过精调且相互独立的模型,尤其适用于决策树。这种技术在最小化方差方面非常有用,因此,过拟合问题使其成为预测建模领域大多数任务的高度首选。本文旨在回顾 bagging 决策树的概念并提供其总体概述、对方法本质的考虑、进一步的实现阶段、优点和缺点,以及在实践中的潜在用途。

理解决策树

然而,要深入探讨 bagging,我们必须理解这种集成方法的基本组成部分,即决策树。决策树是一种广泛使用的监督学习算法,属于非参数机器学习算法类别,适用于分类和回归领域。它通过一种决定输入特征可能值的 the method 将数据划分为子集,从而形成决策树模型。每个节点中的特征、分支和结果构成了决策树,其中每个节点代表一个特征,分支是决策规则,叶节点是结果。

决策树的优点

Bagging Decision Tree

简单性和可解释性

可视化表示:决策树也更加直观易懂,因为它更像是一个流程图。从根节点到最终叶节点的每一条独立路径都定义了做出预测所需的一系列决策。

非技术利益相关者:决策树的一个主要优点是它们易于向他人解释,因为它们能够生成任何人都可以轻松阅读的决策树。例如,业务专业人士在指导他们时应用该模型,无需对所涉及的算法有技术洞察力。

处理非线性关系

分割机制:决策树根据特征值分割数据,这使得它们在捕捉特征空间与结果变量之间的非线性行为方面非常有效。这使得它们非常适合特征之间关系是任意的且无法通过简单线性函数表达的数据集。

灵活的边界:决策树是一种使用树形结构模拟决策过程的模型。其分层结构使其能够捕捉复杂的决策表面。

最小化数据准备

无需缩放:如前所述,决策树不像 SVM 或神经网络等其他方法那样需要特征缩放或归一化。EnrichedDA 可以直接考虑的优点之一是它可以处理任何尺度的输入。

处理缺失值:一些决策树采用几种方法来处理缺失值,第一种是将训练子集中的最常见值赋给缺失值,第二种是使用代理分割。

处理分类和数值数据

混合数据类型:决策树不需要特征选择或数据教学转换,例如对数值和分类预测变量的混合使用独热编码。

二元和多类别分类:它们可以解决二元和多类别分类挑战。决策节点可以直接通过分类变量分割数据。

对不相关特征的鲁棒性

特征选择:使用决策树进行分类有很多好处,其中之一是能够利用树来选择其特征,因为决策树在构建树时会关注信息量最大的特征。这些特征不太可能被选中用于分割数据,因此对模型的影响很小。

内置特征重要性:取决于决策树的类型(在某些类型中,可以直接测量),决策树的一个附加特征可以测量给定特征对减少不纯度(基尼指数、熵等)的影响程度。

决策树的局限性

Bagging Decision Tree

过拟合

使用决策树可能会变得棘手,因为当它们配备了深度结构和许多分支时,它们可以学习训练数据集。它们这样做的方式会导致对未见数据的形成不良,这就是所谓的过拟合。

高方差

毕竟,在构建决策树的过程中,人们注意到即使训练数据之间存在微小差异也可能产生截然不同的树结构,因此使其相当不灵活。这种高方差可能导致不一致,例如分类器似乎凭空猜测预测。

什么是 Bagging?

Bagging 是一种旨在通过降低方差和记忆来改进基学习器或模型(在此例中为决策树)结果的技术。这涉及到利用在数据不同子集上训练的多个基学习器,并利用它们组合的知识来生成一个更准确、对数据集方差不敏感的最终模型。

Bagging 的关键概念

带放回的随机抽样

定义:自助法抽样包括通过带放回的随机抽样从原始数据集中创建多个子样本。这意味着每个子集称为自助法样本,它可以包含整体数据中其他样本数量的两倍,反之亦然;一些样本可能完全缺失。

目的和好处

减少过拟合:这样做是因为在不同训练数据上训练每个模型可以最小化过拟合的实例。单个模型可能很好地拟合 自助法样本,但对其他样本的准确性较低,但当我们组合它们时,结果将更加泛化。

方差减小:自助法抽样极大地减小了最终模型的方差。这实现了更高的准确性,因为不同收集样本引起的变异被平均化以产生更稳定的模型。

基学习器

模型选择:然而,决策树被选为具有高方差的基学习器,并且 Bagging 可与任何学习方法一起使用。基学习器应该无偏、准确,并且与集成模型相比具有高方差。

模型多样性:显而易见,通过采用不同的训练样本形成了基学习器之间的多样性,这使得 Bagging 成功。这种多样性意味着模型倾向于犯不同的错误,因此当结果被平均化时,可以得出最佳猜测。

聚合 (Aggregation)

每个基学习器都在数据集上做出预测,并将这些响应按如下方式汇总以形成最终的预测响应。对于回归模型,最终输出由所有预测模型的平均值确定,而对于分类模型,则由多数投票决定最终模型。

目的和好处

误差减小:某种程度上,聚合可以减小偏差-方差误差。即使单个模型可能非常复杂,因此具有高方差,但单个模型的混合会显著抵消这些高变异,并获得更稳定的值。

鲁棒性:最终聚合的评分和排名类模型对嘈杂和异常数据不那么敏感。一些异常或嘈杂的项目可能会对单个基学习器产生不利影响。然而,通过平均或投票组合所有结果的整体效果减少了这些离群值的影响。

Bagging 决策树的步骤

以下是 bagging 决策树的详细步骤

1. 生成样本

带放回的随机抽样

定义:自助法抽样技术用于从给定的训练数据中生成多个子集。自助法采用将给定数据集分割成子样本,每个子样本被称为自助法样本;它通过带放回抽样获得。

过程

样本大小:同样重要的是要解释,通常,每个自助法样本与原始样本的大小相同。例如,如果给定数据有 'N' 个样本,那么自助法样本也包含相同数量的 'no' 样本。

随机选择:值是随机选择的,由于抽样是有放回的,因此在给定的自助法样本中一个值可能会被选中多次。另一方面,在特定的自助法样本中,某些值可能根本未被选中。

多个样本:创建自助法样本是为了有多个样本可以处理。BBB 模拟的样本使得基学习器或决策树的数量得以确定,因此 BBB 的数量是选项的一个超参数。

2. 训练基学习器

独立模型训练

独立模型:对于与步骤 a 中获得的自助法样本数量相同的自助法样本,使用每个自助法样本来训练基学习器的不同实例。在 bagging 决策树中,训练数据库的自助法样本有一个决策,然后从获得的网络训练一个新的决策树。

并行训练:统计决策树学习的另一个方面是每棵树都是独立构建的;因此,对于大数据,训练阶段可以并行化,从而大大缩短了计算时间。

决策树

配置:每棵决策树使用的参数包括最大树深度、每个叶节点的最小样本数,以及一些分割信息,例如分类树的基尼不纯度或熵。根据可用性,这些参数对于每棵树来说可以相同或不同。

过拟合:单个决策树可能很好地过拟合了它们对应的自助法样本。虽然这种过拟合在这里显现出来,但它在模型创建过程中得到控制,并且多个此类过拟合模型的输出会被平均化。

聚合预测

回归任务:对于回归问题,它还使用基学习器的集成方法,其中最终预测是在平均所有基学习器的输出后得出的。此方法的主要思想是纠正预测过程中发生的波动,从而获得更准确的最终预测。

分类任务:在分类模型中,将不同类别的估计概率结合起来做出一个最终预测。根据其个体结果,最终类别标签被选为由多数基学习器预测的那个。

Bagging 决策树的实现

Python 代码

输出

Bagging Decision Tree

Bagging 决策树的优点

将 Bagging 应用于决策树的一些优点包括以下几点

Bagging Decision Tree

减少过拟合:与类似技术相比,信息平均化降低了 Bagging 过拟合的风险。这是因为在 Bagging 过程中开发的每个决策树都将在数据的自助法样本上进行训练,因此有可能过拟合。

提高稳定性:许多模型的组合减少了噪声和离群值的影响,从而提高了数据的准确性。这是因为平均化过程使得最终的分类决策比单个决策树更稳定。

增强性能:由于决策树非常简单,微小的变化可能会产生很大的影响,通过 Bagging 使它们与更复杂的模型相当。当基决策树出现以高方差为特征的过拟合问题时,这种改进最为显著。

Bagging 决策树的局限性

Bagging Decision Tree

与生长单个决策树相比,Bagging 过程可能导致模型训练时间变慢。此外,从 Bagging 决策树派生的最终预测模型在计算效率方面也可能相对较慢。

计算密集:依赖多个决策树比只训练一棵树在计算上要求更高,也更耗时。这可能是一个缺点,尤其是在处理数百万条记录的数据集时,或者当 CPU 利用率是一个问题时。

可解释性丧失:由于涉及多个树,集成模型中的最终决策与单个决策树相比可解释性较差。尽管决策树的概念非常透明,但分析 Bagging 群集中的决策和发现需要付出努力。

边际效益递减:在达到一定数量的基学习器后,生成的模型可能不会显著改善整体泛化误差。这意味着扩展树字母表会产生边际效益递减,并且计算成本可能会超过它们。

实际应用

由于其在提高预测内存和泛化方面的有效性,决策树在不同行业和场景中被用于 Bagging。在这里,我们扩展了前面提到的一些用法,描述了 Bagging 决策树如何在不同上下文和领域中使用。

1. 金融

风险评估和信用评分

信用评分模型:在信用评分中,Bagging 决策树用于评估个人在金融机构中的还款能力。通过使用多个不同的决策树,它们可以更准确地预测借款人未能偿还贷款的风险。这是因为信用评分模型可以得到增强,以更好地标记中介账户,从而降低不良贷款率。

风险管理:Bagging 技术的另一个优点是它有助于构建用于评估风险的模型集合。这可用于评估未来风险和金融趋势,因为它能够分析过去的记录。这在投资组合管理中尤其有用,其中风险计算数字在投资选择中非常重要。

欺诈检测

异常检测:通过构建许多决策树并组合它们的结果,Bagging 有助于识别大型数据集中欺诈交易分析的高嫌疑比率。在这里使用集成方法可以防止产生许多误报,并提高系统检测欺诈的效率。

实时监控:在金融机构中使用的 Bagging 模型用于实时监控需要跟进的可疑交易。尽管 Bagging 模型具有较低的方差和较高的准确性,但合法交易不应被误认为是欺诈。

2. 医疗保健

疾病预测和诊断

医学诊断:它们将决策树的使用纳入当前预测模型中,用于从医学图像分析以及患者信息中检测疾病。例如,它们可以使用 MRI 或 CT 扫描图片来识别提示肿瘤和其他疾病的特征。通过整合具有相同专业知识的各种专业人士的工作,集成方法增强了诊断方法,从而对患者的整体治疗产生积极影响。

预测分析:Bagging 模型广泛应用于医疗保健领域,其中提供者的主要目标是根据患者的病史和遗传信息来确定某些疾病发生的可能性。这是一种在早期阶段诊断疾病并制定个性化治疗方案的有效方法,从而为患者提供优质的医疗保健,并提高医疗保健行业的成本控制。

患者结局预测

预测模型:使用决策树,也称为 Bagging,可以预测患者状况和恢复时间、个体患者的生存率或其术后并发症的倾向。这也有助于提供准确的预测,帮助医生就治疗方案和资源利用做出决定。

慢性病管理:对于糖尿病和心脏病等慢性病,Bagging 模型可用于管理个体患者的健康状况和与不良事件相关的迹象。这有助于解释可以通过预先诊断的管理和及时纠正问题来改善长期健康。

结论

使用决策树的聚合技术称为 bagging 决策树,它结合了决策树的各种优点,而没有带来与之相关的风险。Bagging 的工作原理——通过自助法抽样和聚合多个模型,Bagging 提高了预测的稳定性和准确性。尽管如此,在金融、健康、营销等任何专业领域,Bagging 决策树作为机器学习中的常用工具,其减少过拟合和提高模型最佳准确性的优势弥补了其巨大的计算需求。


下一个主题什么是向量化?