数据挖掘中的关联分析

2025年3月17日 | 阅读 7 分钟

相关性分析是一种统计方法，用于衡量两个变量之间线性关系的强度并计算它们的关联程度。相关性分析计算一个变量由于另一个变量的变化而变化的水平。高相关性表明两个变量之间存在强关系，而低相关性意味着变量之间的关系较弱。

研究人员使用相关性分析来分析通过调查和实时投票等研究方法收集的定量数据，以进行市场研究。他们试图识别两个变量或数据集之间的关系、模式、重要联系和趋势。当一个变量的增加导致另一个变量也增加时，两个变量之间就存在正相关。另一方面，负相关意味着当一个变量增加时，另一个变量就减少，反之亦然。

相关性是一种双变量分析，它衡量两个变量之间关联的强度和关系的方向。就关系强度而言，相关系数的值在 +1 和 -1 之间变化。± 1 的值表示两个变量之间存在完美的关联程度。

随着相关系数的值趋近于 0，两个变量之间的关系将变得更弱。系数的符号表示关系的方向；+ 号表示正关系，- 号表示负关系。

为什么相关性分析很重要

相关性分析可以揭示不同指标或指标组之间有意义的关系。有关这些联系的信息可以提供新的见解并揭示相互依赖性，即使这些指标来自业务的不同部门。

假设两个变量或指标之间存在强相关性，其中一个变量表现出某种特定方式。在这种情况下，您可以得出结论，另一个变量也受到类似的影响。这有助于将相关指标分组，从而减少单独处理数据的需求。

数据挖掘中相关性分析的类型

通常，在统计学中，我们衡量四种类型的相关性：Pearson相关性、Kendall秩相关性、Spearman秩相关性和点二列相关性。

1. Pearson r 相关性

Pearson r 相关性是衡量线性相关变量之间关系程度最广泛使用的相关性统计量。例如，在股票市场中，如果我们想衡量两种股票之间的关系，Pearson r 相关性用于衡量这两种股票之间关系的程度。点二列相关性与 Pearson 相关性公式一起进行，只是其中一个变量是二分变量。以下公式用于计算 Pearson r 相关性

r_xy= x 和 y 之间的 Pearson r 相关系数

n = 观测次数

x_i = x 的值（对于第 i 次观测）

y_i= y 的值（对于第 i 次观测）

2. Kendall 秩相关性

Kendall 秩相关性是一种非参数检验，用于衡量两个变量之间的依赖强度。考虑两个样本 a 和 b，其中每个样本大小为 n，我们知道 a b 的总配对数为 n(n-1)/2。以下公式用于计算 Kendall 秩相关性的值

Nc = Concordant（一致对）的数量

Nd = Discordant（不一致对）的数量

3. Spearman 秩相关性

Spearman 秩相关性是一种非参数检验，用于衡量两个变量之间的关联程度。Spearman 秩相关性检验不对数据分布做出任何假设。当变量至少在有序尺度上测量时，这是适当的相关性分析。

此系数需要一个数据表，该表显示原始数据、其秩以及两个秩之间的差值。这两个秩的平方差将显示在散点图上，该散点图将指示两个变量之间是否存在正相关、负相关或无相关。该系数适用的约束条件是 -1 ≤ r ≤ +1，其中结果为 0 表示数据之间没有任何关系。以下公式用于计算 Spearman 秩相关性

ρ = Spearman 秩相关性

di = 相应变量的秩之间的差值

n = 观测次数

何时使用这些方法

上述两种方法的使用取决于收集的数据是否与参数相关。需要注意的两个术语是

参数型：(Pearson 系数) 数据必须使用总体或概率分布的参数来处理。通常用于已在 said 参数内设定的定量数据。
非参数型：(Spearman 秩) 无法对概率分布做出任何假设。通常用于定性数据，但也可用于定量数据，如果 Spearman 秩结果不充分。

在两种方法都适用的情况下，统计学家建议使用参数方法，如 Pearson 系数，因为它们通常更精确。但这并不意味着在数据不足或需要更精确的结果时就忽略非参数方法。

解释结果

通常，对一组数据的结果获得概括性但更直接的解释的最佳方法是将其可视化在散点图上，例如

正相关：任何从 +0.5 到 +1 的分数都表示非常强的正相关，这意味着两者同时增加。这种情况会沿着数据点向上显示，以指示正相关。最佳拟合线或趋势线，放置以最佳地代表图表数据。
负相关：任何从 -0.5 到 -1 的分数都表示强的负相关，这意味着当一个变量增加时，另一个变量按比例减少。最佳拟合线在此处可见，以指示负相关。在这些情况下，它将从原点向下倾斜。
无相关：非常简单地说，0 分表示两个变量之间没有相关性或关系。无论使用哪种公式，这一事实都将适用于所有情况。输入公式的数据越多，结果就越准确。样本量越大，结果就越准确。

在两个相关系数中都必须考虑异常值或离群值。使用散点图是识别可能发生的任何异常的最简单方法。运行两次相关性分析（包含和不包含异常值）是评估异常值对分析影响强度的好方法。如果存在异常值，可以使用 Spearman 秩系数而不是 Pearson 系数，因为由于使用的排序系统，该公式对异常值具有极强的鲁棒性。

数据挖掘中的关联分析

为什么相关性分析很重要

数据挖掘中相关性分析的类型

何时使用这些方法

解释结果

相关性分析的好处

相关性分析的示例用例

相关性是否意味着因果关系？

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

数据挖掘

选择题

数据挖掘中的关联分析

为什么相关性分析很重要

数据挖掘中相关性分析的类型

何时使用这些方法

解释结果

相关性分析的好处

相关性分析的示例用例

相关性是否意味着因果关系？

相关帖子

数据挖掘算法

数据挖掘中的数据泛化

数据挖掘贝叶斯分类

数据挖掘模型

数据挖掘中的神经网络

C4.5算法是什么以及它是如何工作的

数据挖掘项目

数据挖掘 vs 数据分析学

数据挖掘中的FP增长算法

数据挖掘系统分类

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器