Isomap

2025年1月5日 | 阅读 4 分钟

Isomap 算法,有时也称为等距映射 (isometric mapping),是最早的流形学习方法之一。可以认为 Isomap 是核 PCA 或多维尺度分析 (MDS) 的一种延续。Isomap 寻找一个低维嵌入,该嵌入能够保留所有点到点的测地线距离。Isomap 对象可用于执行 isomap。

在机器学习和数据分析中,使用一种称为“Isomap”或等距映射的非线性降维方法。它的主要应用是在低维环境中对高维数据进行可视化和理解,这有助于揭示数据的潜在结构或模式。在处理显示复杂非线性关系的数据时,Isomap 非常有用。

Isomap 的基本思想是在将数据点之间的成对测地线距离保持在 100% 左右的情况下,找到数据的低维表示。这些距离能够考虑数据的内在几何形状,并顾及潜在的非线性相关性,因此被称为几何距离。

这是关于 Isomap 如何工作的简要说明

  • 构建邻域图: 通过在高维空间中找到每个数据点的最近邻来构建邻域图。通常,使用 Dijkstra 算法等图算法进行此操作。
  • 将信息嵌入到二维空间: 为了确定能够最好地保持成对测地线距离的低维数据表示,应用多维尺度分析 (MDS) 等技术。

当然,以下几点将提供关于 Isomap 的更具体细节

  • 构建邻域图: 构建邻域图是 Isomap 过程的第一步。该图显示了高维空间中数据点之间的连通性。通常,通过固定距离阈值或每个数据点的固定数量的最近邻来完成此操作。选择的邻居数量或距离标准会影响 Isomap 的结果。
  • 测地线距离计算: Isomap 在构建邻域图后,计算数据点之间的测地线距离。测地线距离是沿图的边的最短路径,它考虑了在遍历图时可以减小距离的特定路径。特别是对于非线性数据,测地线距离比传统的欧几里得距离更能精确地指示数据点之间的相似性。
  • MDS 嵌入: 在计算了测地线距离之后,Isomap 使用一种称为多维尺度分析 (MDS) 的方法将数据嵌入到低维空间中。MDS 的目标是在低维空间中排列数据点,使得计算出的测地线距离与其成对距离尽可能匹配。因此,数据的内在结构在一个低维数据表示中得以保留,在高维空间中靠近的点在低维空间中也保持靠近。
  • 维度选择: 可以选择数据将被嵌入的低维空间的维度。当分析需要更多维度时,也可以使用更高的维度。出于可视化目的,常见的选择是 2D 或 3D。

应用

Isomap 的应用非常广泛,包括模式检测、图像分析和高维数据可视化。

  • 可视化: Isomap 通常用于将高维数据可视化到低维空间中,以便于识别簇、模式或趋势。
  • 数据压缩: 通过在保留关键结构信息的同时降低数据维度,Isomap 可用于压缩数据。
  • 特征工程: 通过在低维空间中确定最关键的维度,Isomap 可以帮助进行特征选择。
  • 模式识别: 通过将数据转换为更合适的表示形式,Isomap 可用于聚类和分类等机器学习任务。

局限性

  • Isomap 假设数据位于一个单一、连接的流形上。如果数据由多个不相交的流形组成,则可能需要进行修复。
  • 在构建邻域图时,对距离阈值或邻居数量的选择很敏感。
  • 对于大型数据集,计算测地线距离可能计算成本很高。

Isomap 是众多可用的降维方法之一,其有效性将取决于数据的具体情况以及分析的目标。它经常与其他方法和探索性数据分析策略结合使用,以加深对复杂数据集的理解。

结论

总之,Isomap 是一种非线性降维方法,它在将高维数据转换为低维空间的同时,保持了数据的内在几何结构。它通过构建邻域图、计算测地线距离,然后利用多维尺度分析 (MDS) 将数据嵌入到低维空间来实现这一点。Isomap 对于将大型数据集分解为可管理的块以及可视化和理解高维数据特别有用。

然而,Isomap 只适用于某些类型的数据,并且像任何其他方法一样,它也有其局限性。数据被假设为对邻域图中邻居数量等特征敏感,并且位于一个单一的、连接的流形上。在处理大型数据集时,它也可能在计算上成本很高。

关于选择哪种降维技术的决定——Isomap 只是其中一种——应基于数据的具体情况和分析的目标。当正确使用时,Isomap 可以成为学者和数据分析师获取复杂数据集重要见解的有用工具,并支持特征工程、数据压缩、可视化和模式检测等多种应用。


下一个主题流形学习