流形学习

2025年1月5日 | 阅读 5 分钟

引言

可视化高维数据集可能极具挑战性。绘制二维或三维数据可以揭示数据的潜在结构,而相应的高维图则可能更易于理解。为了便于可视化数据集的结构,需要以某种方式降低数据的维度。

实现这种降维最直接的方法是任意投影数据。尽管这可以在一定程度上可视化数据结构,但这种选择的随机性却不尽如人意。数据中更具吸引力的组织很可能会在随机投影中丢失。

用于绘图的辅助工具

在这里,我们将使用几种方法来嵌入数字数据集。原始数据投影将被绘制到每个嵌入上。我们将能够确定数字是分散在嵌入空间中还是聚集在其中。


Manifold Learning

嵌入技术比较

下面是多种方法的比较。但有几点需要注意

由于 RandomTreesEmbedding 学习了一个高维表示,然后我们对其应用降维方法,因此它严格来说不是一种流形嵌入方法。然而,将数据集转换为类线性可分的表示形式通常很有帮助。

与许多其他方法不同,线性判别分析(Linear Discriminant Analysis)和邻域成分分析(Neighbourhood Components Analysis)是监督降维技术,它们依赖于输入标签。

在此示例中,PCA 生成的嵌入用于初始化 TSNE。这保证了嵌入的全局稳定性,意味着它独立于随机初始化。

已经开发了许多监督和无监督的线性降维框架,包括线性判别分析等,来解决这个问题。这些技术为选择被认为是“有趣”的线性数据投影指定了特定标准。尽管这些技术可能非常有效,但它们常常忽略了数据中重要的非线性结构。

理解流形学习的一种方法是将其视为扩展 PCA 等线性框架以检测数据中非线性结构的尝试。标准的流形学习问题是无监督的,但也存在监督形式:它通过分析数据本身,在不需要预定义分类的情况下学习数据的整体结构。

示例

  • 对于手写数字的降维,
  • 玩具“S 形曲线”数据集被用作降维的示例;请参阅流形学习技术比较。

流形学习是一种降维方法,用于机器学习和统计评估,以发现高维数据中的潜在结构或模式。当处理难以在其原始高维形式中查看或分析的复杂数据集时,它尤其有用。流形学习的目标是最小化数据的维度,同时保持其基本的拓扑和几何特征。

这里提供了流形学习的概述

内在结构:流形学习技术的前提是高维数据位于位于原始空间内的低维流形上。这种流形是数据的降维、简化表示,它捕捉了数据点之间的基本结构和连接。

降维:流形学习的主要目标是在保留数据重要结构的同时降低其维度。这通过将数据映射到较低维度的空间来实现。与主成分分析(PCA)等传统线性技术相比,流形学习方法可以捕捉复杂的数据分布和非线性交互。

拓扑和几何信息:流形学习技术优先考虑保留数据的拓扑和几何特征,包括邻域关系、角度和距离。这些特征有助于在保留相关结构的同时降低维度。

典型的流形学习策略:几种著名的流形学习方法包括

  • Isomap (等度量映射):Isomap (Isometric Mapping) 使用测地线距离,生成数据的低维表示。一种受欢迎的流形学习方法,称为“Isomap”,即“Isometric Mapping”,在保留点之间的测地线距离的同时,生成数据的低维表示。
  • t-SNE (t 分布随机邻域嵌入):t-SNE 是一种流行的 t 分布随机邻域嵌入方法,用于最小化高维和低维数据点概率分布之间的差异,并侧重于保留数据点之间的成对相似性。目标是减小高维和低维空间之间概率分布的差异。t-SNE 在可视化高维数据和识别聚类和模式方面的能力广为人知。
  • 局部线性嵌入 (LLE):通过使用局部线性嵌入 (LLE),试图保持数据点的局部线性关系。LLE 方法的目标是保留数据点之间的局部线性关系。为了在低维空间中表示每个点,它构建了一个权重矩阵,该矩阵编码了邻近数据点的线性组合。LLE 有效地捕获了数据的局部结构。
  • 非负矩阵分解 (NMF):数据被分解为非负基向量和系数。NMF 通过将数据矩阵分解为非负基向量和系数来实现。在文本数据分析中,它经常用于主题建模和特征提取。当基向量捕获数据的潜在结构时,NMF 可以被视为一种流形学习。

应用:图像处理、自然语言处理、生物信息学等多个领域都使用各种学习。包括类别、统计可视化、异常检测和聚类在内的软件包都从中受益。

参数调整:流形学习技术的有效性取决于适当参数的选择。这些因素可能是目标维度、选择的距离度量以及要考虑的邻居数量。通过仔细调整参数,通常可以获得最佳结果。

局限性:流形学习方法可能计算成本高昂,并且容易受到参数选择的影响。它们最适合具有潜在流形结构的数据,尽管它们可能仅对某些类型的数据有效。

结论

总之,流形学习是一种有效的方法,可以揭示高维数据的潜在结构,降低其维度,并允许在数据分析和可视化过程中收集关键的几何和拓扑信息。总而言之,流形学习是一种用于数据分析和机器学习的有效降维方法。通过识别数据中的潜在结构或模式,它解决了高维数据带来的问题。

通过降低维度但保持关键的几何和拓扑方面,流形学习方法能够实现更有效的数据分析、可视化和解释。这些技术——Isomap、t-SNE、LLE 和 NMF 等——在各种领域都有用武之地,尤其是在处理复杂和非线性数据分布时。因此,仔细分析流形学习技术及其参数至关重要。流形学习是处理高维数据的研究人员和数据科学家获取见解并做出明智决策的宝贵工具。


下一个主题分位数回归