Bagging vs Boosting2025年3月17日 | 阅读 3 分钟 我们都使用决策树技术来做出日常决策。组织使用这些监督的机器学习技术(如决策树)来做出更好的决策,从而产生更多的盈余和利润。 集成方法结合不同的决策树,以提供更好的预测结果,然后利用单个决策树。集成模型背后的主要原理是一组弱学习者聚集在一起形成一个主动学习者。 以下给出了两种用于执行集成决策树的技术。 BaggingBagging用于当我们的目标是减少决策树的方差时。这里的概念是从训练样本中创建几个数据的子集,这些子集是从训练样本中随机选择的。现在,每个子集的数据集合用于准备它们的决策树,因此,我们最终得到一个各种模型的集合。使用来自众多树的所有假设的平均值,它比单个决策树更强大。 随机森林是 bagging 的扩展。它需要一个额外的步骤来预测数据的随机子集。它还进行特征的随机选择,而不是使用所有特征来开发树。当我们有许多随机树时,它被称为随机森林。 以下是实施随机森林所采取的步骤
使用随机森林技术的优点
使用随机森林技术的缺点 由于最终预测取决于子树的平均预测,因此它不会为回归模型提供精确值。 BoostingBoosting是另一种用于创建预测器集合的集成过程。换句话说,我们拟合连续的树,通常是随机样本,并且在每个步骤中,目标是解决来自先前树的净误差。 如果给定输入被理论错误分类,那么它的权重就会增加,以便即将到来的假设更有可能通过在最后整合整个集合来正确分类它,从而将弱学习者转化为更好的执行模型。 梯度 Boosting 是 Boosting 过程的扩展。 它使用梯度下降算法,该算法可以优化任何可微分的损失函数。单独构建树的集合,并连续地对各个树求和。下一个树试图恢复损失(这是实际值和预测值之间的差异)。 使用梯度提升方法的优点
使用梯度提升方法的缺点
Bagging 和 Boosting 之间的区别![]()
下一个主题数据挖掘与数据仓库 |
我们请求您订阅我们的新闻通讯以获取最新更新。