R 中缩放变量平行坐标图

14 Nov 2024 | 4 分钟阅读

平行坐标图提供了一种强大的数据分析和探索可视化方法,尤其适用于多元数据集。 它们有助于可视化和分析多个变量之间的相关性。 然而,为了构建成功的平行坐标图,变量必须适当地缩放以进行有意义的比较。 在这篇文章中,我们将使用 R 来研究缩放变量以进行平行坐标图的概念。

认识平行坐标图

平行坐标图,也称为平行坐标绘图或 PCP,是一种用于表示多元数据的图形工具。 它由一系列平行的垂直轴组成,每个变量一个轴,因此得名。 数据点显示为穿过这些轴的链接线段。 每个轴代表一个单独的变量,数据点在轴上的位置代表该数据点该变量的数值。

平行坐标图非常有用,可以用于:

  1. 比较数据点: 您可以通过跟踪连接它们的线条来检查个人信息因素的多个变量的值。
  2. 过滤数据: 通过刷选或选择图表的特定区域,可以轻松地根据事实属性来过滤事实点。
  3. 识别模式: 它们将允许您快速发现多元事实中的模式或特征,包括集群或异常值。

为什么要缩放变量?

缩放平行坐标图中的变量至关重要,因为单个变量的大小可能差异很大,从而使正确的可视化和比较变得困难。 考虑以下情况:一个变量的范围是 1 到 10,而另一个变量的范围是 1000 到 10000。 当这些变量在没有缩放的情况下沿同一轴绘制时,第二个变量的波动可能会淹没第一个变量的变化,从而难以识别较小变量中的模式。

使用的模块

GGally: 它向 ggplot2 添加了许多函数,以减少将几何图形与转换后的数据合并的难度。 可以使用以下命令安装它

hrbrthemes: 它是轴和图的附加“ggplot2”主题的集合。

我们将利用 ggparcoord() 函数来绘制这些平行坐标。

语法如下

  • 数据: 数据集合
  • 列: 将用作绘图轴的变量向量(名称或索引)。
  • GroupColumn: 用于分组(着色)的单个变量。
  • Scale: 这是缩放变量的方法(参见详细信息)。
  • Scale summary: 汇总统计数据,如果 scale=="center",则对每个变量进行单变量居中。
  • CenterObsID: 如果 scale=="centerObs",则应将案例图的行号单变量居中。
  • Missing: 处理缺失值的方法(详细信息)。
  • Order: 对轴进行排序的方法(参见详细信息)。
  • ShowPoints: 一个逻辑运算符,指示是否绘制点。

1. 没有任何缩放

我们将研究如果不使用比例变量会发生什么。 我们不打算为此使用比例属性。

输入

输出

Scaling Variables Parallel Coordinates chart in R
Scaling Variables Parallel Coordinates chart in R

常见的变量缩放方法

在平行坐标图中,有多种方法可以缩放变量。 两种最常见的方法是最小-最大缩放和 z 分数缩放。

从最小值到最大值缩放

最小-最大缩放,也称为特征缩放,将变量缩小到单个范围,通常为 [0, 1]。 最小-最大缩放公式如下

其中,

X 是变量的初始值。

X_min 是变量的最小值。

X_max 是变量的最大值。

2. 使用 MinMax 进行缩放

在这种情况下,我们将使用 mixmax 缩放选项,scale = "globalminmax"。

输入

输出

Scaling Variables Parallel Coordinates chart in R
Scaling Variables Parallel Coordinates chart in R

3. 通过标准化进行缩放

在这种情况下,我们将使用标准化缩放变量,scale = "std"。

输入

输出

Scaling Variables Parallel Coordinates chart in R
Scaling Variables Parallel Coordinates chart in R