从头开始的多类别逻辑回归2024年8月28日 | 阅读 4 分钟 引言多类逻辑回归是一种用于涉及多个类别预测的分类任务的关键机器学习方法。与仅处理两个类别的二元逻辑回归方法相比,多类逻辑回归将此策略扩展到涵盖多个类别。 多类逻辑回归的目标是创建一个模型,该模型可以将输入归类到多个不同类别中的一个。通过扩展逻辑回归方法以支持多个类别来实现这一点。使用带有标签的训练数据来训练模型,其中每个实例都与一个不同的类别相关联。 多类逻辑回归的基本思想是计算每个类别的概率,然后预测给定输入具有最大可能性的类别。通常,通过使用 softmax 算法将原始预测转换为总和为一的概率,来选择其中一个类别。 理解逻辑回归逻辑回归在统计上最适合解决二元分类任务,其目标是预测一个实例属于两个类别之一的概率。尽管逻辑回归的名字中有“回归”二字,但它并非回归方法。它是一种分类算法。 从根本上说,逻辑回归将数据拟合到逻辑函数(也称为 sigmoid 函数),以估计二元事件发生的可能性。此函数可以将任何输入转换为零到一之间的值,该值表示输入属于正类别的可能性。 通过使用梯度下降等优化技术,逻辑回归方法最小化损失函数(通常是逻辑损失或交叉熵损失),以估计逻辑函数的参数值。这些参数包括一个截距项和与每个特征相关的系数。 在训练过程中,逻辑回归能够为正类别实例赋予更高的概率,而为负类别实例赋予更低的概率。训练完成后,模型通过使用逻辑函数和阈值(通常为 0.5)来识别预期类别,来预测其他实例。 多类分类问题多类分类问题关注的是将实例分配到多个指定类别中的一个。与仅考虑两个潜在类别的二元分类不同,多类分类处理至少三个类别的情况。 - 问题定义:目标是创建一个模型,该模型可以在给定包含实例及其相应类别标签的数据集的情况下,正确预测新、未见过实例的类别标签。
- 表示:使用特征向量表示数据集中的每个实例,该向量捕获每个实例的多个特征或属性。每个实例的类别成员资格由类别标签表示,类别标签是分类变量。
- 挑战:与二元分类相比,多类分类增加了额外的复杂性。模型必须区分多个类别,并且这些类别可能在它们的相似或不相似程度方面有所不同。重叠的类别边界和不平等的类别分布可能会使问题更加困难。
- 解决方法
- 一对多(OvA):也称为一对剩余(one-vs-rest),该方法涉及为每个类别开发一个二元分类器,每个分类器确定哪些实例属于其相应类别,哪些实例不属于。
- 一对一(OvO):该方法涉及为每对类别训练一个二元分类器。每个分类器在预测时都会为单个类别投票,投票数最多的类别组将成为最终预测。
- 直接多类模型:某些算法,例如决策树和多类逻辑回归,可以直接处理多类分类,从而无需使用 OvA 或 OvO 等分解技术。
- 评估:对于多类分类,准确率、精确率、召回率、F1 分数和混淆矩阵分析是常用的评估指标。这些指标可以说明模型在各种分类上的表现。
- 应用:多类分类的应用广泛,涵盖许多不同领域,例如情感分析、文档分类、图像识别和医学诊断。
多类分类评估指标- 准确率:正确分类的案例占所有实例的百分比称为准确率。准确率易于理解,但可能不适用于类别分布不平衡的数据集。
- 精确率:在所有预测为正的实例中,真实正预测的百分比。它表明模型在避免假正方面有多好。
- 召回率(灵敏度):在所有真实正实例中,正确正预测的百分比称为召回率。它表明模型在捕获正实例方面有多好。
- F1 分数:召回率和精确率的调和平均值得到 F1 分数,它对这两个度量提供了公平的比较。在处理类别不平衡的数据集时,它非常有用。
- 宏平均和微平均指标:宏平均和微平均指标是为多类分类计算的精确率、召回率和 F1 分数。为了使每个类别获得相等的权重,宏平均会单独计算每个类别的指标,然后再取平均值。通过合并每个类别的贡献来获得平均指标,微平均为较大的类别赋予更高的权重。
- 混淆矩阵:混淆矩阵以表格形式概述了模型预测的类别与实际类别标签的比较。显示每个类别的真实正例、假正例、真实负例和假负例的数量有助于直观地了解模型的性能。
- 分类报告:分类报告提供了评估指标的全面概述,包括召回率、精确率、F1 分数和支持度(每个类别的真实实例数量)。
|