降维技术简介

2025年5月27日 | 7分钟阅读

什么是降维？

数据集中的输入特征、变量或列的数量称为维度，而减少这些特征的过程称为降维。

在很多情况下，数据集包含大量的输入特征，这使得预测建模任务更加复杂。由于很难可视化或对具有大量特征的训练数据集进行预测，因此在这种情况下需要使用降维技术。

降维技术可以定义为：“**它是将高维数据集转换为低维数据集的一种方法，并确保其提供相似的信息。**” 这些技术被广泛用于机器学习中，以便在解决分类和回归问题时获得更好的预测模型。

它通常用于处理高维数据的领域，例如**语音识别、信号处理、生物信息学等。它还可以用于数据可视化、降噪、聚类分析**等。

维度灾难

在实践中处理高维数据非常困难，通常称为“*维度灾难*”。如果输入数据集的维度增加，任何机器学习算法和模型都会变得更加复杂。随着特征数量的增加，样本数量也会成比例增加，过拟合的几率也会增加。如果机器学习模型在高维数据上进行训练，它将过拟合并导致性能不佳。

因此，通常需要减少特征数量，这可以通过降维来实现。

应用降维的好处

将降维技术应用于给定数据集的一些好处如下：

通过减少特征的维度，存储数据集所需的空间也会减少。
对于减少的特征维度，需要更少的计算训练时间。
数据集特征的减少维度有助于快速可视化数据。
它通过处理多重共线性来去除冗余特征（如果存在）。

降维的缺点

降维的应用也有一些缺点，如下所示：

由于降维，可能会丢失一些数据。
在PCA降维技术中，有时所需的要考虑的主成分是未知的。

降维方法

有两种应用降维技术的方法，如下所示：

特征选择

特征选择是选择相关特征子集并排除数据集中不相关特征以构建高精度模型的过程。换句话说，它是一种从输入数据集中选择最优特征的方法。

特征选择使用三种方法：

1. 过滤方法

在此方法中，数据集被过滤，并选取仅包含相关特征的子集。过滤方法的一些常用技术是：

相关性
卡方检验
ANOVA
信息增益等。

2. 包装器方法

包装器方法与过滤方法具有相同的目标，但它使用机器学习模型进行评估。在此方法中，将一些特征输入到机器学习模型中，并评估其性能。性能决定是否添加或删除这些特征以提高模型精度。此方法比过滤方法更准确，但工作起来更复杂。包装器方法的一些常用技术是：

前向选择
后向选择
双向消除

3. 嵌入方法：嵌入方法会检查机器学习模型的不同训练迭代，并评估每个特征的重要性。嵌入方法的一些常用技术是：

LASSO
弹性网络
岭回归等。

特征提取

特征提取是将包含许多维度的空间转换为包含较少维度的空间的过程。当我们要保留所有信息但处理信息时使用更少的资源时，此方法很有用。

一些常见的特征提取技术是：

主成分分析
线性判别分析
核PCA
二次判别分析

降维的常见技术

主成分分析
向后消除
前向选择
分数比较
缺失值比例
低方差过滤
高相关性过滤
随机森林
因子分析
自动编码器

主成分分析 (PCA)

主成分分析 (PCA) 是一种统计过程，通过正交变换将相关特征的观测值转换为一组线性不相关的特征。这些新的变换后的特征称为**主成分**。它是用于探索性数据分析和预测建模的流行工具之一。

PCA通过考虑每个属性的方差来工作，因为高属性显示了类别之间的良好划分，因此它减少了维度。PCA的一些实际应用是**图像处理、电影推荐系统、优化各种通信信道的功率分配。**

后向特征消除

后向特征消除技术主要用于开发线性回归或逻辑回归模型。以下步骤在此技术中执行以降低维度或进行特征选择：

在此技术中，首先，将给定数据集的所有 n 个变量用于训练模型。
检查模型的性能。
现在，我们将每次删除一个特征，并在 n-1 个特征上训练模型 n 次，并计算模型的性能。
我们将检查对模型性能产生最小变化或没有变化的可变性，然后删除该变量或特征；之后，我们将剩下 n-1 个特征。
重复整个过程，直到无法删除任何特征为止。

在此技术中，通过选择模型的最佳性能和最大可容忍错误率，我们可以定义机器学习算法所需的最佳特征数量。

前向特征选择

前向特征选择遵循后向消除过程的逆过程。这意味着在此技术中，我们不会消除特征，而是找到能够使模型性能最高度提升的最佳特征。以下步骤在此技术中执行：

我们从单个特征开始，然后逐渐一次添加一个特征。
在这里，我们将分别在每个特征上训练模型。
选择性能最佳的特征。
重复该过程，直到模型性能得到显着提升为止。

缺失值比例

如果数据集有太多缺失值，则删除这些变量，因为它们不包含太多有用信息。要执行此操作，我们可以设置一个阈值，如果某个变量的缺失值超过该阈值，我们将删除该变量。阈值越高，减少的效率就越高。

低方差过滤

与缺失值比例技术一样，数据中发生一些变化的数据列包含的信息较少。因此，我们需要计算每个变量的方差，并且将方差低于给定阈值的所有数据列删除，因为低方差特征不会影响目标变量。

高相关性过滤

高相关性是指两个变量承载几乎相同信息的案例。由于此因素，模型的性能可能会下降。独立数值变量之间的这种相关性会给出相关系数的计算值。如果此值高于阈值，我们可以从数据集中删除其中一个变量。我们可以考虑与目标变量显示高相关性的变量或特征。

随机森林

随机森林是机器学习中一种流行且非常有用的特征选择算法。此算法包含一个内置的特征重要性包，因此我们无需单独编程。在此技术中，我们需要针对目标变量生成大量树，并借助每个属性的使用统计数据，找到特征子集。

随机森林算法仅接受数值变量，因此我们需要使用**独热编码**将输入数据转换为数值数据。

因子分析

因子分析是一种技术，其中每个变量根据与其他变量的相关性而被分组；这意味着同一组内的变量之间可能存在高度相关性，但与其他组的变量相关性较低。

我们可以通过一个例子来理解它，例如，如果我们有两个变量“收入”和“支出”。这两个变量高度相关，这意味着高收入的人花钱更多，反之亦然。因此，这些变量被归为一组，该组称为**因子**。这些因子的数量将比数据集的原始维度少。

自动编码器

降维的一种流行方法是自动编码器，它是一种人工神经网络（ANN）或人工神经网络，其主要目的是将输入复制到其输出。在这种情况下，输入被压缩成潜在空间表示，并使用该表示产生输出。它主要有两个部分：

编码器：编码器的功能是将输入压缩以形成潜在空间表示。
解码器：解码器的功能是从潜在空间表示中重构输出。

下一个主题多项逻辑回归