R 分类

17 Mar 2025 | 4 分钟阅读

分类算法的思想很简单。我们通过分析训练数据集来预测目标类别。我们使用训练数据集来获得更好的边界条件,这些条件可用于确定每个目标类别。一旦确定了边界条件,下一步就是预测目标类别。整个过程称为分类。

以下是分类算法的一些重要点

R Classification
  • 分类器
    它是一种将输入数据映射到特定类别的算法。
  • 分类模型
    分类模型尝试从给定的训练输入值中得出一些结论。此结论将预测新数据的类标签/类别。
  • 特性
    它是被观察事件的单个可测量属性。
  • 二元分类
    它是一种只有两种可能结果的分类任务。例如,性别分类,只有两种可能的结果,即男性和女性。
  • 多类分类
    它是一种分类任务,其中分类使用两个以上的类别进行。多类分类的一个例子是:动物可以是狗或猫,但不能同时是两者。
  • 多标签分类
    它是一种分类任务,其中每个样本都映射到一组目标标签。多标签分类的一个例子是:一篇新闻文章可以同时是关于人物、地点和体育的。

分类算法的类型

在 R 中,分类算法大致分为以下类型

  • 线性分类器
    在机器学习中,统计分类的主要任务是使用对象的特征来查找它属于哪个类别。此任务通过基于特征的线性组合的值做出分类决策来实现。在 R 中,有三种线性分类算法,如下所示
    1. 逻辑回归
    2. 朴素贝叶斯分类器
    3. Fisher 的线性判别式
  • 支持向量机
    支持向量机是一种监督学习算法,它分析用于分类和回归分析的数据。在 SVM 中,每个数据项都绘制为 n 维空间中的一个点,每个属性的值,即特定坐标的值。
    最小二乘支持向量机是 R 中最常用的分类算法。
  • 二次分类器
    二次分类算法基于贝叶斯定理。这些分类器算法在分类方法上与逻辑回归不同。在逻辑回归中,可以直接推导出特定观察 (X = x) 的类 (Y = k) 的观察概率。但是在二次分类中,观察分以下两个步骤进行
    1. 第一步,我们确定每个组或类别的输入 X 的分布。
    2. 之后,我们借助贝叶斯定理翻转分布以计算概率。
  • 核估计
    核估计是一种估计连续随机变量的概率密度函数 (PDF) 的非参数方法。它是非参数的,因为它假设变量没有隐含的分布。从本质上讲,在每个数据上,都会创建一个以数据为中心的核函数。它确保内核关于数据对称。然后,通过添加所有这些核函数并将其除以数据数量来估计 PDF,以确保它满足 PDF 的两个属性
    1. PDF 的每个可能值都应为非负数。
    2. PDF 在其支持集上的固定积分应等于 1。
    在 R 中,k 最近邻是用于分类的最常用的核估计算法。
  • 决策树
    决策树是一种监督学习算法,用于分类和回归任务。在 R 中,决策树分类器是在 R 机器学习 caret 包的帮助下实现的。随机森林算法是 R 中最常用的决策树算法。
  • 神经网络
    神经网络是另一种分类器算法,它受到人脑的启发来执行特定任务或功能。这些算法主要用于 R 中的图像分类。要实现神经网络算法,我们必须安装 neuralnet 包。
  • 学习向量量化
    学习向量量化是一种用于二元和多类问题的分类算法。通过学习训练数据集,LVQ 模型创建代表类区域的码本向量。它们包含根据其匹配级别放置在相应类周围的元素。如果元素匹配,则它会更接近目标类,如果不匹配,则继续。

下一个主题R-时间序列分析