Bagging vs Boosting

2025年3月17日 | 阅读 3 分钟

我们都使用决策树技术来做出日常决策。组织使用这些监督的机器学习技术(如决策树)来做出更好的决策,从而产生更多的盈余和利润。

集成方法结合不同的决策树,以提供更好的预测结果,然后利用单个决策树。集成模型背后的主要原理是一组弱学习者聚集在一起形成一个主动学习者。

以下给出了两种用于执行集成决策树的技术。

Bagging

Bagging用于当我们的目标是减少决策树的方差时。这里的概念是从训练样本中创建几个数据的子集,这些子集是从训练样本中随机选择的。现在,每个子集的数据集合用于准备它们的决策树,因此,我们最终得到一个各种模型的集合。使用来自众多树的所有假设的平均值,它比单个决策树更强大。

随机森林是 bagging 的扩展。它需要一个额外的步骤来预测数据的随机子集。它还进行特征的随机选择,而不是使用所有特征来开发树。当我们有许多随机树时,它被称为随机森林。

以下是实施随机森林所采取的步骤

  • 让我们考虑训练数据集中的 X 个观测值 Y 个特征。首先,从训练数据集中随机抽取一个模型,并进行替换。
  • 树被开发到最大程度。
  • 重复给定的步骤,并给出预测,预测基于来自 n 棵树的预测集合。

使用随机森林技术的优点

  • 它可以很好地处理高维数据集。
  • 它处理缺失数量并保持缺失数据的准确性。

使用随机森林技术的缺点

由于最终预测取决于子树的平均预测,因此它不会为回归模型提供精确值。

Boosting

Boosting是另一种用于创建预测器集合的集成过程。换句话说,我们拟合连续的树,通常是随机样本,并且在每个步骤中,目标是解决来自先前树的净误差。

如果给定输入被理论错误分类,那么它的权重就会增加,以便即将到来的假设更有可能通过在最后整合整个集合来正确分类它,从而将弱学习者转化为更好的执行模型。

梯度 Boosting 是 Boosting 过程的扩展。

它使用梯度下降算法,该算法可以优化任何可微分的损失函数。单独构建树的集合,并连续地对各个树求和。下一个树试图恢复损失(这是实际值和预测值之间的差异)。

使用梯度提升方法的优点

  • 它支持不同的损失函数。
  • 它与交互作用配合良好。

使用梯度提升方法的缺点

  • 它需要仔细调整不同的超参数。

Bagging 和 Boosting 之间的区别

Bagging vs Boosting
BaggingBoosting
从整个训练数据集中随机抽取具有替换的不同训练数据子集。每个新子集都包含先前模型错误分类的组件。
Bagging 尝试解决过度拟合问题。Boosting 试图减少偏差。
如果分类器不稳定(高方差),那么我们需要应用 bagging。如果分类器稳定且简单(高偏差),那么我们需要应用 boosting。
每个模型都获得相等的权重。模型根据其性能进行加权。
目标是减少方差,而不是偏差。目标是减少偏差,而不是方差。
这是连接属于同一类型的预测的最简单方法。这是一种连接属于不同类型的预测的方法。
每个模型都是独立构建的。新模型受到先前开发的模型性能的影响。