数据挖掘中的关联规则挖掘

2024年11月20日 | 阅读9分钟

数据挖掘中的关联规则是什么?

if-else 语句也称为关联规则,它进一步指明数据项之间关系的可能性。这些类型的关系存在于各种数据库中的大型数据集中。借助数据挖掘中的关联规则,我们可以获得数据挖掘中存在的应用程序数量,并且这些应用程序广泛地发现了事务数据或医疗数据集中销售的相关性。

关联规则的用例有哪些?

关联规则在各个行业和领域都有许多实际用例,因为它们能够揭示数据集中有意义的关系和模式。以下是一些常见的关联规则用例。

  1. 市场篮子分析
    这是最著名的应用之一。所有零售商都可以使用关联规则来发现顾客购物篮中的商品关联。例如,如果需要找出购买薯片的顾客也可能购买沙拉酱,商店可以优化产品陈列和营销策略。
  2. 医疗保健
    • 疾病诊断:借助关联规则,我们可以识别患者健康记录中的模式,例如发现症状、检查结果或患者特征的组合,这些组合预示着某些疾病。
    • 治疗建议:借助关联规则,我们可以根据患者的病史和病情建议合适的治疗或干预措施,从而改善个性化医疗。
  3. 金融服务
    • 欺诈检测:借助关联规则,银行和信用卡公司可以通过识别异常消费模式或与欺诈相关的交易序列来检测欺诈交易。
    • 交叉销售:金融机构可以根据客户的交易历史和财务行为向他们推荐额外的产品或服务。
  4. 市场调研
    • 消费者行为分析:营销人员可以通过分析购买历史和人口统计数据来识别消费者偏好,从而实现更好的目标广告和产品开发。
    • 产品放置优化:我们必须了解哪些产品经常一起购买,以帮助优化实体店和在线市场中的产品放置。
  5. 网络使用分析
    • 网站优化:借助关联规则,所有网站所有者都可以分析其网站上的用户行为。例如,我们还必须了解哪些页面是一起访问的,在完成此操作后,我们可以帮助改进网站导航和内容推荐。
  6. 制造业
    • 质量控制:制造商可以识别与产品缺陷相关的因素或条件,这有助于改进质量控制流程。
    • 生产优化:它可以带来更高效的制造流程。发现不同生产变量之间的关联
  7. 电信
    • 网络管理:在电信行业中,我们可以借助关联规则检测网络流量中的模式,这些模式可能表示问题或异常。
    • 客户流失预测:电信公司可以识别与客户流失相关的因素,并采取预防措施来留住客户。
  8. 库存管理
    • 供应链优化:了解供应链中各种商品之间的关系有助于优化库存水平、降低持有成本并改善订单履行。
  9. 社交网络分析
    • 好友推荐:社交媒体平台可以使用关联规则根据共同兴趣、联系或行为推荐新朋友或联系。
  10. 文本挖掘
    • 内容推荐:在内容推荐系统(例如 Netflix 或 Amazon)中,关联规则可以根据用户过去的交互和偏好向用户推荐电影、书籍或产品。

关联规则如何工作?

关联规则是数据挖掘和机器学习的基础,旨在发现大型数据集中有趣的关系和模式。这些规则识别数据中项目或属性之间的关联或依赖关系。用于关联规则挖掘的主要算法是 Apriori 算法,它遵循系统过程来生成这些规则。

1. 频繁项集生成

在此算法中,我们必须通过识别数据集中的频繁项集来启动该过程。频繁项是数据中经常出现的一组项目(或属性)。

我们可以使用称为支持度的度量来衡量数据集的频率。这些支持度由事务或记录中出现项集的比例表示。

我们必须使用 Apriori 算法,它采用自下而上的方法。首先,我们必须寻找频繁的单个项,然后我们必须逐渐将它们组合起来以找到更大的项集。

2. 关联规则生成

在识别频繁项之后,我们必须从这些项生成关联规则。

然后,我们必须编写关联规则,它将采用“if-then”语句的形式,其中“if”部分称为前件(前提),“then”部分称为后件(结论)。

然后,我们必须探索 Apriori 算法,它结合频繁项集中的项来生成潜在的关联规则。

3. 规则剪枝

我们必须应用一些标准来确保只生成有意义的规则。最常用的标准如下。

  1. 支持度阈值:我们必须创建一个具有支持度的规则才能被认为是有效的。这确保了该规则适用于足够数量的事务。
  2. 置信度阈值:一条规则必须具有最小置信度才能被认为是有趣的。置信度是前件暗示后件的概率,它衡量关联的强度。
  3. 提升度阈值:提升度是一种衡量指标,它将规则的观测支持度与如果规则中的项是独立的预期支持度进行比较。提升度值大于 1 表示正关联,而提升度值小于 1 表示负关联。

4. 迭代过程

在此过程中,我们必须通过生成项集、创建规则和剪枝规则来迭代 Apriori 算法,直到无法再生成有效规则。

然后,我们必须执行迭代,其中算法采用“向下闭合属性”,该属性指出如果一个项是频繁的,则其所有子集也是频繁的。此属性有助于降低算法的计算复杂性。

5. 输出

关联规则挖掘的最终输出是一组满足指定支持度和置信度阈值的关联规则。

这些规则可以根据其有趣性或强度进行排名,从而使分析师能够专注于最相关和可操作的规则。

关联规则有效性的度量

在使用数据挖掘中的关联规则时,评估其有效性和相关性至关重要。通常使用几个步骤来评估关联规则并确定其质量。这些度量有助于识别哪些规则是有意义和可操作的。关联规则有效性的主要步骤包括:

1. 支持度(支持计数)

  • 支持度衡量特定项集在数据集中出现的频率。
  • 它计算为包含项集中所有项的事务或记录数除以事务总数。
  • 高支持度表示该项集在数据集中是频繁的,而低支持度表示该项集出现频率较低。

公式:支持度(X) = (包含 X 的事务数) / (总事务数)

2. 置信度

  • 置信度量化了关联规则的强度。
  • 它衡量给定前件发生后,规则的后件发生的条件概率。
  • 置信度计算为组合项集(前件和后件)的支持度除以前件的支持度。

公式:置信度 (X -> Y) = 支持度 (X ∪ Y) / 支持度(X)

  • 置信度值介于 0 到 1 之间,其中 1 表示前件和后件之间存在完美关联。

3. 提升度

  • 提升度衡量前件和后件之间的关联强度,同时考虑它们的支持度。
  • 它量化了前件和后件同时出现的可能性是否高于它们独立出现的情况。
  • 提升度值大于 1 表示正关联(项目更有可能一起出现),而提升度值小于 1 表示负关联(项目不太可能一起出现)。

公式:提升度(X -> Y) = (支持度(X ∪ Y)) / (支持度(X) * 支持度(Y))

4. 兴趣度(或相关性)

  • 在这种方法中,我们必须通过将观测规则与预期支持规则进行比较来衡量规则。此外,我们必须记住一点:前件和后件应该是独立的。
  • 在兴趣度值中,我们应该始终取正整数。正整数表示更多的兴趣,负值表示更少的兴趣。

公式:兴趣度(X -> Y) = 支持度(X ∪ Y) - (支持度(X) * 支持度(Y))

5. 信念度

  • 借助这种方法,我们可以通过比较真实前件和虚假前件来衡量信念度的量化。
  • 如果信念度值高,则表示依赖性高,如果信念度值低,则表示依赖性低。

公式:信念度(X -> Y) = (1 - 支持度(Y)) / (1 - 置信度(X -> Y))

6. 杠杆率

  • 借助此方法,我们可以找到规则的观测支持度与预期支持度之间的差异。我们必须记住一点:前件和后件应该是独立的。

如果提供正值,则表示规则比预期更普遍,如果提供负值,则表示规则比预期不那么普遍。

公式:杠杆率(X -> Y) = 支持度(X ∪ Y) - (支持度(X) * 支持度(Y))

关联规则算法

关联规则中最常用的算法是 AIS、SETM、Apriori 以及后者的变体。

  1. AIS 算法
    在 AIS 算法中生成所有项,然后通过扫描过程计算项集。然后,AIS 算法确定事务数据中的大型项集。之后,创建新的项集。我们可以通过将大型项集与事务数据中的其他项进行扩展来实现这一点。
  2. SETM 算法
    在 SETM 算法中,我们可以通过扫描数据库来生成项集。我们必须记住,此算法在完成所有任务后才扫描数据库。在此算法中,新数据集的生成过程与 AIS 算法中数据集的生成过程类似。在此算法中,所有数据集的事务 ID 都以数据结构方式存储在数据库中。完成所有传递后,通过将生成的任务保存在顺序结构中来生成事务 ID。SETM 和 AIS 算法的缺点是每个算法都可以生成和计算许多小的候选项。Real-Time Data Mining 的作者 Saed Sayad 博士指出了这些缺点。
  3. Apriori 算法
    在此算法中,如果前一次传递具有大型项集,则将上次传递中的大型项集与自身连接以生成所有大小增加一的项集。然后删除任何子集不大的生成的项集。剩余的项集是候选集。Apriori 算法认为频繁项集的任何子集都是频繁项。根据 Sayad 的说法,通过这种方法,算法通过只探索支持度计数大于最小支持度计数的项集来减少要考虑的候选集数量。

数据挖掘中关联规则的用途

数据挖掘中关联规则的用途很多。这些规则在各个领域都有许多实际应用。它们用于分析和预测客户行为。这在分析市场篮子、分析客户、产品聚类、设计目录和商店布局方面也起着最重要的作用。因此,程序员使用关联规则来构建能够进行机器学习的机器。机器学习是一种人工智能,用于构建无需编程即可提高效率的程序。

数据挖掘中关联规则的例子

我们可以说关联规则的最佳例子是尿布和啤酒之间的联系。这个例子可能看起来很虚构,但去商店购买尿布的男性也可能购买啤酒。我们可以在以下领域看到关联规则的例子。

  • 零售和市场篮子分析
  • 医疗保健
  • 电子商务推荐
  • 欺诈检测
  • 网络使用分析
  • 库存管理
  • 文本挖掘和自然语言处理
  • 制造和质量控制
  • 市场调研
  • 社交网络分析
  • 电信
  • 客户细分

上述领域展示了关联规则的实现,它可以在数据中发现有意义的关系和模式,从而在各个领域实现更明智的决策、改进推荐和增强业务流程。