Lightbm 多标签分类2025年03月17日 | 阅读 9 分钟 多标签分类允许每个实例同时分配给多个类别,而不是仅仅一个。例如,在一款音乐推荐系统中,一首歌曲可能被归类为多个流派,如“摇滚”、“蓝调”和“爵士”。相比之下,在传统的分类任务中,一个实例通常被分配给一组互斥类别中的一个。 预测每个事件的多个标签导致多标签分类固有的难度。因此,需要能够表示各种标签之间相关性和相互依赖性的模型。传统技术可能无法有效处理这种复杂性,尤其是在处理大数据集和高维特征空间时。 微软创建了 LightGBM,一个利用基于树的学习技术的梯度增强框架。它旨在实现可扩展性、高效性,并能够处理大量数据。LightGBM 通过多种改进实现了这一点,例如叶子生长策略、对大数据集的有效处理以及基于直方图的决策树学习。基于直方图的技术通过将连续信息离散化为离散区间来加速训练过程。虽然其他梯度增强技术采用深度优先方式构建树,但 LightGBM 采用叶子优先方式构建树,专注于损失减少最大的叶子,从而提高了准确性。LightGBM 还针对性能进行了优化,使其适用于大型高维数据集。 我们可以利用 LightGBM 在同时处理多个二元分类问题方面的适应性和效率,从而将其修改用于多标签分类。二元相关 (BR)、分类器链 (CC)、标签幂集 (LP) 和集成方法是一些流行技术。最简单的方法是二元相关,其中使用二元分类器独立学习每个标签,该分类器可以有效地使用 LightGBM 进行训练。尽管此方法单独处理每个标签,但可能无法很好地捕捉标签关系。相反,分类器链以类似于链的方式训练二元分类器,使用每个分类器的预测作为后续分类器的额外特征。这使得模型能够识别标签之间的相关性和依赖性,从而提高预测准确性。标签幂集方法将所有可能的标签组合视为一个单独的类别,从而将多标签问题简化为单个多类别问题。因此,可以使用 LightGBM 训练多类别分类器。但是,当存在大量不同标签组合时,此方法可能无法实施。 代码 现在为了更好地理解这个概念,我们将借助 Lightbm 尝试对鸢尾植物进行分类。 导入库读取数据集![]() 现在我们将创建一个自定义多类别对数损失函数和准确性指标,以用于 LightGBM,一个梯度增强框架。 编码目标我们将把目标值转换为序数值。 输出 ![]() 输出 ![]() 拆分数据现在我们将使用两种方法来训练 LightGBM 模型以完成多类别分类任务:一种使用自定义多类别对数损失函数,另一种使用 LightGBM 提供的内置多类别目标函数。 输出 ![]() 输出 ![]() 多任务现在我们将介绍一个自定义数据集类 MultiLabelDatasetForLGBM,专门用于在 LightGBM 中处理多标签数据,以及一个自定义损失函数 MultiMSEForLGBM,用于多任务均方误差。 编码目标这里我们现在将使用不同的方法,我们将把目标编码为分类值。 输出 ![]() 拆分数据训练现在我们将再次训练模型。 输出 ![]() 输出 ![]() 比较预测现在将 softmax 函数应用于预测的 logits 以获得类别概率,对于回归任务,预测直接从训练好的模型中获得,无需额外的转换。 输出 ![]() 输出 ![]() 输出 ![]() 下一个主题蒙特卡洛方法 |
?逆强化学习(IRL)是机器学习的一个引人入胜的子领域,它侧重于根据其观察到的行为来揭示一个代理人正在优化的奖励函数。与传统的强化学习(RL)不同,在 RL 中,奖励函数是预先定义的,目标是...
11 分钟阅读
引言 多类分类术语用于目标是将输入样本分配到三个或更多离散类别之一。这个问题在机器学习中很常见,在图像识别、自然语言处理、生物信息学等领域都有应用...
7 分钟阅读
是一种已知且有效的特征选择策略,广泛应用于机器学习。RFE 的主要目标是收集在任何预测任务中表现最佳的特征,同时去除其他特征。此技术支持性能...
阅读 8 分钟
简介:在本教程中,我们将学习贝叶斯深度学习的介绍。可以通过使用贝叶斯接口来检查神经网络的概率。我们可以通过对标准神经网络工具进行简单的修改来近似这个概念性问题。贝叶斯定理是数据的一部分...
阅读 6 分钟
蒙特卡洛模拟是用于模拟概率(或“随机”)系统和计算不同结果可能性的统计方法。在解决有限马尔可夫决策问题的技术中,有时间差学习、动态规划和蒙特卡洛。每类过程都有其优点和...
18 分钟阅读
介绍 高斯 splatting 是一种渲染技术,在大多数情况下用于在笔记本电脑快照和可视化中可视化点云记录。它涉及使用基于高斯函数的加权平均技术,将三维空间中的点投影到二维图像平面上。该...
7 分钟阅读
机器学习 (ML) 已成为一项突破性工具,在各个行业中都做出了重大贡献。教育领域也不例外,因为 ML 算法正被用于彻底改变教学和学习实践。通过利用数据的力量和先进的计算技术,……
阅读 3 分钟
对于希望构建个性化体验的企业来说,评估用户需求是一个关键问题。尽管传统的马尔可夫模型在建模用户行为的顺序依赖性方面表现良好,但它们在表示复杂、非线性关系时会遇到困难。训练数据,作为输出的一部分,我们有……
阅读9分钟
密度估计位于数据建模、特征工程和无监督学习的边界。最受欢迎和实用的密度估计方法中的一些是基于邻居的方法,如核密度估计(KernelDensity)和混合模型,如高斯混合模型(GaussianMixture)。由于高斯混合模型可以...
7 分钟阅读
在广阔而多样的森林世界中,每种植被类型都具有其独特的生态重要性。能够预测这些植被类型对于生态保护、自然资源管理和加深我们对自然世界的理解至关重要。这就是……
阅读 28 分钟
我们请求您订阅我们的新闻通讯以获取最新更新。
我们提供所有技术(如 Java 教程、Android、Java 框架)的教程和面试问题
G-13, 2nd Floor, Sec-3, Noida, UP, 201301, India