数据挖掘中的关联分析

2025年3月17日 | 阅读 7 分钟

相关性分析是一种统计方法,用于衡量两个变量之间线性关系的强度并计算它们的关联程度。相关性分析计算一个变量由于另一个变量的变化而变化的水平。高相关性表明两个变量之间存在强关系,而低相关性意味着变量之间的关系较弱。

研究人员使用相关性分析来分析通过调查和实时投票等研究方法收集的定量数据,以进行市场研究。他们试图识别两个变量或数据集之间的关系、模式、重要联系和趋势。当一个变量的增加导致另一个变量也增加时,两个变量之间就存在正相关。另一方面,负相关意味着当一个变量增加时,另一个变量就减少,反之亦然。

相关性是一种双变量分析,它衡量两个变量之间关联的强度和关系的方向。就关系强度而言,相关系数的值在 +1 和 -1 之间变化。± 1 的值表示两个变量之间存在完美的关联程度。

随着相关系数的值趋近于 0,两个变量之间的关系将变得更弱。系数的符号表示关系的方向;+ 号表示正关系,- 号表示负关系。

为什么相关性分析很重要

相关性分析可以揭示不同指标或指标组之间有意义的关系。有关这些联系的信息可以提供新的见解并揭示相互依赖性,即使这些指标来自业务的不同部门。

假设两个变量或指标之间存在强相关性,其中一个变量表现出某种特定方式。在这种情况下,您可以得出结论,另一个变量也受到类似的影响。这有助于将相关指标分组,从而减少单独处理数据的需求。

数据挖掘中相关性分析的类型

通常,在统计学中,我们衡量四种类型的相关性:Pearson相关性、Kendall秩相关性、Spearman秩相关性和点二列相关性。

1. Pearson r 相关性

Pearson r 相关性是衡量线性相关变量之间关系程度最广泛使用的相关性统计量。例如,在股票市场中,如果我们想衡量两种股票之间的关系,Pearson r 相关性用于衡量这两种股票之间关系的程度。点二列相关性与 Pearson 相关性公式一起进行,只是其中一个变量是二分变量。以下公式用于计算 Pearson r 相关性

Correlation Analysis in Data Mining

rxy= x 和 y 之间的 Pearson r 相关系数

n = 观测次数

xi = x 的值(对于第 i 次观测)

yi= y 的值(对于第 i 次观测)

2. Kendall 秩相关性

Kendall 秩相关性是一种非参数检验,用于衡量两个变量之间的依赖强度。考虑两个样本 a 和 b,其中每个样本大小为 n,我们知道 a b 的总配对数为 n(n-1)/2。以下公式用于计算 Kendall 秩相关性的值

Correlation Analysis in Data Mining

Nc = Concordant(一致对)的数量

Nd = Discordant(不一致对)的数量

3. Spearman 秩相关性

Spearman 秩相关性是一种非参数检验,用于衡量两个变量之间的关联程度。Spearman 秩相关性检验不对数据分布做出任何假设。当变量至少在有序尺度上测量时,这是适当的相关性分析。

此系数需要一个数据表,该表显示原始数据、其秩以及两个秩之间的差值。这两个秩的平方差将显示在散点图上,该散点图将指示两个变量之间是否存在正相关、负相关或无相关。该系数适用的约束条件是 -1 ≤ r ≤ +1,其中结果为 0 表示数据之间没有任何关系。以下公式用于计算 Spearman 秩相关性

Correlation Analysis in Data Mining

ρ = Spearman 秩相关性

di = 相应变量的秩之间的差值

n = 观测次数

何时使用这些方法

上述两种方法的使用取决于收集的数据是否与参数相关。需要注意的两个术语是

  • 参数型:(Pearson 系数) 数据必须使用总体或概率分布的参数来处理。通常用于已在 said 参数内设定的定量数据。
  • 非参数型:(Spearman 秩) 无法对概率分布做出任何假设。通常用于定性数据,但也可用于定量数据,如果 Spearman 秩结果不充分。

在两种方法都适用的情况下,统计学家建议使用参数方法,如 Pearson 系数,因为它们通常更精确。但这并不意味着在数据不足或需要更精确的结果时就忽略非参数方法。

解释结果

通常,对一组数据的结果获得概括性但更直接的解释的最佳方法是将其可视化在散点图上,例如

  1. 正相关:任何从 +0.5 到 +1 的分数都表示非常强的正相关,这意味着两者同时增加。这种情况会沿着数据点向上显示,以指示正相关。最佳拟合线或趋势线,放置以最佳地代表图表数据。
    Correlation Analysis in Data Mining
  2. 负相关:任何从 -0.5 到 -1 的分数都表示强的负相关,这意味着当一个变量增加时,另一个变量按比例减少。最佳拟合线在此处可见,以指示负相关。在这些情况下,它将从原点向下倾斜。
    Correlation Analysis in Data Mining
  3. 无相关:非常简单地说,0 分表示两个变量之间没有相关性或关系。无论使用哪种公式,这一事实都将适用于所有情况。输入公式的数据越多,结果就越准确。样本量越大,结果就越准确。
    Correlation Analysis in Data Mining

在两个相关系数中都必须考虑异常值或离群值。使用散点图是识别可能发生的任何异常的最简单方法。运行两次相关性分析(包含和不包含异常值)是评估异常值对分析影响强度的好方法。如果存在异常值,可以使用 Spearman 秩系数而不是 Pearson 系数,因为由于使用的排序系统,该公式对异常值具有极强的鲁棒性。

相关性分析的好处

以下是相关性分析的各种好处,例如

1. 缩短检测时间

在异常检测中,处理许多指标并呈现相关的异常指标有助于建立关系,从而缩短检测时间 (TTD) 并支持缩短修复时间 (TTR)。随着数据驱动的决策已成为常态,在每个行业领域,对异常的早期和稳健检测至关重要,因为延迟检测会对客户体验和收入产生不利影响。

2. 减少警报疲劳

相关性分析在异常检测中的另一个重要好处是通过过滤不相关的异常(基于相关性)并将相关的异常分组为一个警报来减少警报疲劳。警报风暴和误报是组织面临的重大挑战——当许多警报源于同一事件时,会收到来自多个系统的数百甚至数千个单独警报。

3. 降低成本

相关性分析有助于显著降低与调查无意义或重复警报所花费的时间相关的成本。此外,节省的时间可以用于为组织增加价值的更具战略性的计划。

相关性分析的示例用例

营销专业人士使用相关性分析来评估活动的效率,方法是监控和测试客户对不同营销策略的反应。通过这种方式,他们可以更好地理解和为客户服务。

财务规划师评估个人股票与标准普尔 500 等指数的相关性,以确定将该股票添加到投资组合中是否会增加投资组合的系统性风险。

对于数据科学家和负责监控数据的人员来说,相关性分析在根本原因分析方面非常有价值,并缩短了检测时间 (TTD) 和修复时间 (TTR)。同时发生/发生的两个异常事件或异常有助于查明问题的根本原因。如果一个问题能够被理解和及时修复,组织将承担较低的经历该问题的成本。

技术支持团队可以通过过滤不相关的异常并将相关的异常分组为一个警报来减少他们必须响应的警报数量。安全信息和事件管理 (SIEM) 系统等工具会自动促进事件响应。

相关性是否意味着因果关系?

虽然相关性分析技术可能可以识别出重要的关系,但相关性并不意味着因果关系。分析无法确定原因,也不应尝试得出此结论。重要的关系意味着更多的理解以及应该进一步探索以寻找原因的外部或潜在因素。虽然可能存在因果关系,但任何研究人员如果使用相关性结果来证明这种关系的存在都是不明智的。

通过相关性分析发现的任何关系的根本原因由研究人员通过其他统计分析方法确定,例如确定性系数分析。然而,相关性分析可以提供很大的价值;例如,可以估算依赖性或变量的值,这可以帮助公司估算产品或服务的成本和销售情况。

本质上,基于相关的统计分析的用途和应用使研究人员能够确定哪些方面和变量相互依赖,这可以产生可操作的见解,或者作为进一步调查和更深入见解的起点。


下一主题数据挖掘服务