数据挖掘中的关联是什么?

2024年11月20日 | 阅读 6 分钟

什么是关联?

在数据挖掘中,“关联”是指在海量数据中识别出有趣且重要的联系或模式。它侧重于识别数据集中各个元素或变量之间的关系或相关性。这种方法经常应用于许多行业,例如零售、购物篮分析、网络使用挖掘等。

购物篮分析是数据挖掘中关联最广为人知的例子。在这种情况下,数据科学家会寻找客户经常一起购买的产品模式。为了营销和库存管理的目的,杂货店可能会利用客户经常一起购买面包和黄油这一事实。

Apriori算法是用于关联规则挖掘的主要算法,该算法创建在数据集中频繁一起出现的项集。这些集合通常被称为“项集”,项之间的连接使用“关联规则”来表示。当客户购买集合A中的商品时,规则假设他们也很可能购买集合B中的商品。关联规则通常采用“如果A,则B”的形式,其中A和B是项集。

数据挖掘中的关联如何工作?

关联规则挖掘技术可以找到数据集中对象或变量之间的有趣关系、模式或关联。虽然它可以用于不同类型的数据,但它经常用于识别大型事务数据库中的模式。

关联规则挖掘的典型操作如下:

1. 数据准备

首先是收集和预处理数据。数据可能需要清理、删除重复项并格式化为适当的结构。信息可能是交易记录,其中每笔交易都列出了客户在购物篮分析的背景下购买的产品。

2. 项集生成

关联规则项集——在数据集中频繁一起出现的项集——是挖掘过程的第一步。这是通过计算数据集中每个项的项频率来完成的。

3. 支持度阈值

设定一个基本支持级别。支持度量化给定项集在数据集中出现的频率。支持度高于或低于阈值的项集是频繁项集。

4. 生成关联规则

找到频繁项集后,会生成关联规则。这些规则是“如果A,则B”,其中A和B表示项集。为此,通常使用Apriori算法。为了生成规则,它会调查这些常见项集的特征。

5. 规则过滤

并非所有生成的规则都可能是有趣的或实用的。可以使用进一步的过滤来根据特定标准(例如置信度或提升度)选择最重要的规则。

  • 支持度:计算数据集中项集出现的频率或一组项一起出现的频率。
  • 置信度:衡量规则正确的频率。高置信度表明项A和B之间存在很强的关联。
  • 提升度:提升度将观察到的置信度与A和B独立时的预期置信度进行比较,以评估关联规则的强度。提升度大于1表示存在正相关,小于1表示存在负相关。

6. 展示和解释

最后,允许用户或分析师讨论发现的关联规则。这些规则可以在做决定时提供对不同项之间关系的见解,例如推荐产品或简化业务流程。

例如:假设您拥有关于一家零售店销售交易的信息。在您设置支持度阈值(例如 5%)后,“面包”和“黄油”这两个词在交易中频繁一起出现。您生成一个关联规则,说明“如果客户购买‘面包’,则他们很可能购买‘黄油’”。该规则的置信度为 70%,这可能表明这些商品之间存在很强的关联。

企业可以通过使用关联规则挖掘获得有价值的消费者行为见解。这些见解可以改善客户购物体验、优化库存并改进营销策略。

关联规则学习的类型

关联规则学习是机器学习的一个子集,它致力于发现数据集中不同变量或项之间有趣的联系或关联。存在各种关联规则学习技术,每种技术都适用于特定类型的数据和问题集。典型的关联规则学习技术包括:

  • Apriori算法:Apriori算法是最流行的关联规则学习算法之一。它专门用于在事务数据库中查找频繁使用的项集。Apriori根据项集的支持度和置信度生成关联规则。
  • FP-Growth:FP-Growth(Frequent Pattern Growth)是另一种用于查找频繁项集的算法,与Apriori相对。它使用一种称为“频繁模式树”的数据结构来有效地查找频繁项集。
  • Eclat算法:Eclat算法(Equivalence Class Transformation)是另一种用于频繁项集挖掘的算法。它采用深度优先搜索方法来查找频繁项集及其相应的关联规则。
  • CARMA:CARMA(Compact, Accurate, and Representative Multi-class Association)旨在发现多类关联规则。它可以发现涉及多个类或类别的联系。
  • 定量关联规则挖掘:与传统的关联规则挖掘不同,这种方法使用数值数据而不是分类或二元数据。它识别数值特征之间的联系,提供对数值变量之间关系的见解。

关联规则学习技术的选择取决于数据的具体特征和分析的目标。对于不同类型的数据和应用,不同的技术更合适。

数据挖掘中关联的优势

关联规则挖掘这项数据挖掘技术具有多项优势,使其在各种应用中都有用武之地。数据挖掘中关联的主要优势包括:

  • 发现隐藏的模式:关联挖掘能够发现大型数据集中隐藏的联系和模式。通过这种方式可以获得对数据底层结构的见解,有助于阐明问题或领域。
  • 购物篮分析:它经常用于零售业,通过购物篮分析识别客户交易中的商品关联。这可以改进交叉销售、个性化和产品放置策略。
  • 决策支持:关联规则可以成为决策的基础。企业可以使用发现的规则来做出关于产品推荐、库存管理和广告活动的明智选择。
  • 数据降维:通过突出最相关的关联,关联规则可以帮助减少数据的维度,从而更容易专注于数据中最关键的元素。
  • 高度可扩展:许多关联规则挖掘算法都具有高度可扩展性,并且可以有效地处理大型数据集。因此,可以用于大数据场景。
  • 灵活性:关联挖掘可以应用于各种数据类型,包括时间、分类、二元和数值数据。由于其灵活性,它可以用于各种应用。
  • 可解释性:关联规则通常易于理解,使得领域专家更容易理解和利用所发现的模式。

尽管关联规则挖掘具有许多优点,但需要注意它也有缺点,例如会产生大量规则,其中一些可能无法使用,并且未能考虑因果关系。

数据挖掘中关联的缺点

数据挖掘中的关联存在一些缺点。有些如下:

  • 计算成本高:关联规则挖掘的计算成本可能很高,尤其是在处理大型数据集或复杂数据结构时。无论是规则生成还是评估,都可能需要大量的计算资源。
  • 产生伪规则:它经常产生许多不必要或实用价值很低的规则。筛选这个巨大的规则空间可能需要很长时间,而且很容易被无用的规则所迷惑。
  • 仅限于二元和分类数据:传统的关联规则挖掘技术主要针对二元或分类数据。在使用连续或数值数据时,需要进行离散化,这可能导致精度损失和信息丢失。
  • 隐私和安全问题:关联规则挖掘有时会泄露关于个人或实体的敏感或私人信息,从而引发隐私和安全问题。可能需要使用差分隐私等策略来在挖掘有益关联的同时保护数据。

权衡这些缺点与关联规则挖掘的优点至关重要,并根据分析的独特需求和数据的特征选择最佳的数据挖掘技术。