什么是多维标度分析?

2025年4月26日 | 阅读 9 分钟

多维标度分析(MDS)是一种统计方法,用于可视化一组对象之间的相似性或不相似性的程度。它将数据点之间的成对距离转换到低维空间,通常是二维或三维,从而更容易发现模式、聚类和关系。

理解概念

多维标度分析(MDS)基于数据点可以表示为几何空间中的对象这一概念,其中它们之间的距离对应于它们的相似性或不相似性。该技术对于没有自然坐标表示的数据特别有用,例如主观评分、偏好或定性关系。

MDS 的工作原理

MDS 的第一步是以不相似性矩阵的形式收集输入数据。该矩阵表示对象之间感知到的距离,这些距离可以是测量值(例如地理距离)或抽象关系(例如调查中的相似性分数)。输入数据越准确,MDS 可视化对底层关系的表示就越好。

接下来,用户必须选择投影的维度数。通常使用二维或三维空间以便于可视化,但更高维度可以更准确地保留距离。然而,解释更高维度的输出变得更具挑战性,因此对于实际应用来说,低维表示更受青睐。

然后,MDS 算法处理不相似性数据,并尝试在所选维度中为每个对象分配坐标。目标是最小化一个应变函数,该函数测量原始不相似性与低维空间中距离之间的差异。较低的应变值表示更准确的表示。

为了获得最佳匹配,MDS 使用迭代优化技术(例如梯度下降)来调整对象的位置。算法不断完善空间配置,直到找到能够保留原始关系的最佳拟合。此步骤在计算上很密集,尤其对于大型数据集,但它确保最终的可视化尽可能准确地反映数据的真实结构。

处理完成后,最终输出是一个空间地图,其中相似性更高(根据输入数据)的对象放置得更近,而差异较大的对象放置得更远。这种可视化有助于识别聚类、发现隐藏的模式并理解复杂的关系。

多维标度分析的类型

多维标度分析(MDS)可以根据其处理不相似性数据的方式和用于可视化的数学方法进行分类。MDS 的两种主要类型是度量 MDS 和非度量 MDS,它们根据数据的性质服务于不同的目的。

度量 MDS(经典 MDS)

度量 MDS,也称为经典 MDS,假定对象之间的给定不相似性是数值距离,应在低维空间中尽可能精确地保留。此方法基于特征值分解,并依赖于保留不相似性的实际幅度。

度量 MDS 的主要特点

  • 保留对象之间的实际数值距离。
  • 使用称为主坐标分析 (PCoA) 的数学变换。
  • 当不相似性代表可测量的比率尺度距离时(例如,城市之间的地理距离)效果最好。
  • 输出表示旨在最小化绝对距离的失真。
  • 当数据具有明确定义的距离值时,度量 MDS 非常有用,例如物理距离、财务数字或科学实验中的测量差异。

非度量 MDS

非度量 MDS 更具灵活性,当输入数据包含排序关系而非精确数值距离时使用。该方法不保留精确距离,而是保留对象之间相似性或不相似性的顺序。当处理主观的、有序的数据(例如客户偏好或心理感知)时,它特别有用。

非度量 MDS 的主要特点

  • 侧重于排序关系而不是精确距离。
  • 使用迭代优化来找到保留相对顺序的最佳排列。
  • 在处理缺乏精确数值测量的数据(例如品牌偏好排名)时更健壮。
  • 通常用于市场研究、心理学和社会学,其中数据基于定性评估而非精确测量。
  • 例如,如果客户将五个汽车品牌从最喜欢到最不喜欢排序,那么非度量 MDS 将创建一个空间表示,该表示尊重此排序,而无需担心它们之间的精确数值距离。

个体差异标度 (INDSCAL)

个体差异标度 (INDSCAL) 是 MDS 的一种扩展,它考虑了数据集中内的多个视角。当分析从不同个人或群体收集的数据时,它非常有用,并且旨在在考虑感知差异的同时找到共同的潜在结构。

INDSCAL 的主要特点

  • 允许个体感知差异,同时仍然产生统一的空间表示。
  • 通常用于心理学和消费者行为研究,以了解不同的反应模式。
  • 有助于识别数据中特定于组的趋势,例如文化或人口统计学对偏好的影响。

广义多维标度分析 (GMDS)

广义 MDS 将传统 MDS 技术扩展到非欧几里得空间,这意味着它可以处理不符合标准几何假设的数据。这在分析复杂结构、曲面或高维生物数据时非常有用。

GMDS 的主要特点

  • 适用于非欧几里得和曲面。
  • 用于生物建模、神经科学和计算几何等高级领域。
  • 可以捕捉传统 MDS 无法捕捉的非线性关系。

多维标度分析的步骤

多维标度分析(MDS)遵循一个依赖过程,将不相似性矩阵转换为低维空间中对象的空间表示。此过程有助于可视化数据中的关系和模式。MDS 的关键步骤如下:

1. 收集和准备不相似性矩阵

MDS 的第一步是获取不相似性矩阵,它表示对象之间的成对距离或不相似性。这些值可以来自测量距离(例如,城市之间)或感知差异(例如,调查中的相似性评分)。该矩阵通常是方形且对称的,其中对角线值为零(表示对象本身之间没有距离)。

2. 选择维度数

在应用 MDS 之前,用户必须决定最终表示的维度数(通常是二维或三维)。虽然更高的维度可以提供更准确的距离表示,但为了便于可视化和解释,通常更喜欢较低的维度。

3. 应用 MDS 算法

MDS 试图将对象放置在所选的维度数内,同时保留原始距离关系。该算法

  • 为所有对象分配初始随机坐标。
  • 迭代地调整位置以降低应变,这是一个衡量低维空间中的距离与原始距离之间差异的度量。
  • 使用梯度下降等优化策略来完善对象位置。

4. 计算应变值并优化

应变函数衡量低维空间中的距离与原始不相似性之间的匹配程度。较低的应变值表示更高的匹配度。该过程将继续进行,直到应变最小化,从而确保最终的空间配置。如果应变过高,增加维度数可能会提高准确性。

5. 可视化和解释结果

优化完成后,将绘制最终的空间表示。相似性更高(基于输入的不相似性)的对象彼此靠近,而相似性较低的对象放置得更远。可视化有助于识别数据中的聚类、趋势和模式。

6. 验证 MDS 解

获得最终的 MDS 配置后,通过以下方式验证其准确性非常重要:

  • 检查应变值(通常,低于 0.1 的应变表示良好的匹配)。
  • 比较低维空间中的距离与原始不相似性矩阵。
  • 进行外部验证(例如,与聚类等其他统计技术进行比较)。

多维标度分析的应用

多维标度分析(MDS)广泛应用于各个领域,用于分析和可视化数据中的复杂关系。通过将相似性或不相似性数据转换为几何表示,MDS 帮助研究人员和分析师发现模式、检测聚类并获得见解。MDS 的一些关键应用包括:

市场研究和消费者行为

MDS 在市场研究中广泛用于了解客户感知和品牌定位。

  • 有助于可视化消费者如何感知不同品牌、产品或服务之间的相似性。
  • 通过识别市场空白来协助产品定位。
  • 用于分析消费者偏好,例如人们如何看待不同类型的饮料、手机或服装品牌。

例如,MDS 可以生成一张感知图,显示智能手机品牌在客户心目中高度相关,而另一个品牌则被视为完全不同。

心理学和社会科学

在心理学和社会科学中,MDS 帮助研究人员研究感知和认知过程。

  • 用于研究人们如何感知颜色、声音、情绪或个性之间的关系。
  • 有助于态度测量,研究人员研究人们如何对不同社会问题或政治候选人进行排名。
  • 在临床心理学中用于发现精神障碍或行为倾向之间的相似性。

例如,MDS 可用于可视化人们如何根据感知到的相似性对幸福、悲伤和愤怒等不同情绪进行分组。

生物信息学和遗传学

MDS 通常在生物信息学中用于分析遗传相似性和进化关系。

  • 用于比较 DNA 或蛋白质序列并可视化物种之间的关系。
  • 有助于对用于疾病研究的遗传数据进行聚类并识别遗传风险因素。
  • 有助于在临床研究中研究基因表达模式和患者数据。

例如,MDS 可以帮助可视化不同物种基于遗传数据的亲缘关系,从而支持进化生物学研究。

机器学习和数据科学

MDS 用于机器学习和数据科学中的降维和数据可视化。

  • 有助于通过将高维数据集降低到二维或三维以方便解释。
  • 用于聚类分析以发现大型数据集中的模式。
  • 有助于理解不同机器学习模型或复杂算法中的特征之间的相似性。

例如,MDS 可以帮助表示电子商务中的客户购买模式,使公司能够更有效地对目标受众进行细分。

医疗保健和医学研究

MDS 在分析和可视化患者数据和疾病模式方面在医疗保健领域发挥着至关重要的作用。

  • 有助于根据症状相似性或遗传标记对疾病进行分组。
  • 通过绘制大脑活动相似性图来协助医学成像和神经科学。
  • 用于流行病学研究疾病传播和患者人口统计学。

例如,MDS 可以帮助识别具有相似症状的患者亚组,从而实现更有针对性的治疗。

语言学和文本分析

  • 在语言学和文本分析中,MDS 用于研究语言、单词或方言之间的相似性。
  • 有助于根据语音相似性分析不同语言或口音之间的关系。
  • 用于语义分析以研究单词或术语的含义关系。
  • 有助于文本挖掘以对相似文档进行分组或分类书面内容。

例如,MDS 可用于可视化不同语言如何基于单词相似性相关联。

政治学和社会学

MDS 用于政治学和社会学以分析意识形态相似性和群体行为。

  • 有助于根据选民的看法对政治候选人或事件进行可视化。
  • 用于分析社交网络结构,例如识别有影响力的团体或社区。
  • 有助于进行调查分析,研究人员研究人们如何对不同的社会政策或经济问题进行排名。

例如,MDS 可以可视化选民如何从意识形态的角度看待政治候选人,从而帮助策略师定制竞选信息。

优点和局限性

优点

  • 提供复杂关系的直观可视化。
  • 可同时处理度量和非度量数据。
  • 有助于在大数据集中发现隐藏的模式。

局限性

  • 对于大型数据集来说,计算量很大。
  • 需要合适的距离度量才能获得准确的结果。
  • 解释可能因领域知识而异,存在主观性。

结论

多维标度分析是可视化和理解数据中复杂关系的一种强大工具。通过将高维相似性数据转换为可解释的格式,MDS 使研究人员和分析师能够提取有意义的见解并做出明智的决策。无论是在心理学、营销还是数据科学领域,MDS 仍然是有效探索模式和趋势的宝贵技术。


下一主题Keras 教程