R 分类

17 Mar 2025 | 4 分钟阅读

分类算法的思想很简单。我们通过分析训练数据集来预测目标类别。我们使用训练数据集来获得更好的边界条件，这些条件可用于确定每个目标类别。一旦确定了边界条件，下一步就是预测目标类别。整个过程称为分类。

以下是分类算法的一些重要点

分类器
它是一种将输入数据映射到特定类别的算法。
分类模型
分类模型尝试从给定的训练输入值中得出一些结论。此结论将预测新数据的类标签/类别。
特性
它是被观察事件的单个可测量属性。
二元分类
它是一种只有两种可能结果的分类任务。例如，性别分类，只有两种可能的结果，即男性和女性。
多类分类
它是一种分类任务，其中分类使用两个以上的类别进行。多类分类的一个例子是：动物可以是狗或猫，但不能同时是两者。
多标签分类
它是一种分类任务，其中每个样本都映射到一组目标标签。多标签分类的一个例子是：一篇新闻文章可以同时是关于人物、地点和体育的。

分类算法的类型

在 R 中，分类算法大致分为以下类型

线性分类器
在机器学习中，统计分类的主要任务是使用对象的特征来查找它属于哪个类别。此任务通过基于特征的线性组合的值做出分类决策来实现。在 R 中，有三种线性分类算法，如下所示
1. 逻辑回归
2. 朴素贝叶斯分类器
3. Fisher 的线性判别式
支持向量机
支持向量机是一种监督学习算法，它分析用于分类和回归分析的数据。在 SVM 中，每个数据项都绘制为 n 维空间中的一个点，每个属性的值，即特定坐标的值。
最小二乘支持向量机是 R 中最常用的分类算法。
二次分类器
二次分类算法基于贝叶斯定理。这些分类器算法在分类方法上与逻辑回归不同。在逻辑回归中，可以直接推导出特定观察 (X = x) 的类 (Y = k) 的观察概率。但是在二次分类中，观察分以下两个步骤进行
1. 第一步，我们确定每个组或类别的输入 X 的分布。
2. 之后，我们借助贝叶斯定理翻转分布以计算概率。
核估计
核估计是一种估计连续随机变量的概率密度函数 (PDF) 的非参数方法。它是非参数的，因为它假设变量没有隐含的分布。从本质上讲，在每个数据上，都会创建一个以数据为中心的核函数。它确保内核关于数据对称。然后，通过添加所有这些核函数并将其除以数据数量来估计 PDF，以确保它满足 PDF 的两个属性
1. PDF 的每个可能值都应为非负数。
2. PDF 在其支持集上的固定积分应等于 1。
在 R 中，k 最近邻是用于分类的最常用的核估计算法。
决策树
决策树是一种监督学习算法，用于分类和回归任务。在 R 中，决策树分类器是在 R 机器学习 caret 包的帮助下实现的。随机森林算法是 R 中最常用的决策树算法。
神经网络
神经网络是另一种分类器算法，它受到人脑的启发来执行特定任务或功能。这些算法主要用于 R 中的图像分类。要实现神经网络算法，我们必须安装 neuralnet 包。
学习向量量化
学习向量量化是一种用于二元和多类问题的分类算法。通过学习训练数据集，LVQ 模型创建代表类区域的码本向量。它们包含根据其匹配级别放置在相应类周围的元素。如果元素匹配，则它会更接近目标类，如果不匹配，则继续。