数据挖掘中的基于规则的分类

2024年11月20日 | 阅读9分钟

引言

数据挖掘及其在数据驱动决策中的作用,对于当今先进技术的开发者和技术人员来说至关重要。数据挖掘技术可以帮助公司和组织筛选大量数据,从而做出决策并获得宝贵的见解。在数据挖掘的各种方法中,基于规则的分类方法脱颖而出。在本文中,我们将深入探讨基于规则的分类的概念,并结合实际示例,探讨其本质、原理和重要性。

基于规则的分类的定义

基于规则的分类是一种用于数据挖掘的技术,它围绕创建决策规则。这些规则是用于将数据元素分类到预定义类或类别中的指南。它们的结构是“如果...那么...”格式,其中定义了条件(“如果”部分)并指定了相应的操作或分类(“那么”部分)。这些决策规则通常通过分析数据得出,从而基于模式和见解实现自动化决策过程。

决策规则的重要性

决策规则在制定数据驱动的决策方面发挥着作用。它们提供了一个易于理解的框架来理解决策背后的原因。与缺乏透明度的算法不同,决策规则为利益相关者提供了一种易于理解的格式,使他们能够掌握决策背后的逻辑。这种开放性在医疗保健、银行和法律等领域至关重要,在这些领域,问责制和可理解性是首要任务。

基于规则的分类过程

您是否曾经想过一些人工智能如何能够快速地为海量信息做出决策?一种方法是使用基于规则的分类。这只是意味着它会查看大量数据,并尝试找到可以帮助分类或预测其他内容的模式。

Rule-Based Classification in Data Mining

1. 数据预处理

  • 数据收集: 第一步很简单;您只需找到有关您正在研究的任何主题的所有可用数据。
  • 数据清理: 我们必须删除任何可能影响预测的内容。异常值、缺失信息以及数据中的任何错误都必须删除。基于脏数据的预测永远不会正确。
  • 数据转换: 现在我们已经获得了所有有价值的内容,我们可能需要调整一些内容,以便它们能更好地协同工作。将它们全部放入一个适当的格式中。我们将进行诸如编码不同类型的数据或规范化数字之类的操作。
  • 数据降维: 这个步骤并非总是使用,但如果使用,它将非常有帮助。我们尽可能减少的主要原因是加快速度并简化程序对信息的理解和处理。

2. 规则生成

在基于规则的分类中,并非所有属性都用于规则生成。选择正确的属性是关键一步。有一些算法用于查找信息量最大的属性。

  • 规则归纳: 在选择正确的属性之后,就可以开始规则归纳了。基于数据中发现的模式来创建决策规则。各种算法,包括基于树的方法和关联规则挖掘,都可以归纳出这些规则。
  • 规则表示: 决策规则采用“IF-THEN”语句的形式。例如,“如果年龄 > 30 且收入 > $50,000,则批准贷款。”

规则的“IF”部分是规则的前件或前提条件。“THEN”部分称为规则的后件。前件或条件由一个或多个属性测试组成,这些测试在逻辑上使用 AND 连接。后件部分指定了类预测。

3. 规则评估

  • 支持度: 频率在评估规则在数据集中的适用性方面起着重要作用。它显示了条件被满足的次数。
  • 置信度: 通过置信度来查看准确性。这包括满足条件并被正确分类的实例。
  • 提升度: 一种衡量重要性的指标,它比较了有规则和没有规则的情况下结果发生的概率。如果大于 1,则该规则在进行预测时很有用。
  • 规则剪枝: 在创建决策规则后对其进行评估,以了解其效果如何。有些规则的支持度或置信度不强,这使得它们价值较低。因此,我们应该删除这些规则以提高效率和准确性。
  • 规则排序: 根据需要,可以根据提升度、支持度和置信度等属性对规则进行排序。这有助于选择可靠的规则用于决策。

4. 规则应用

  • 顺序评估: 规则按顺序应用于数据集中的每个实例。规则的顺序很重要,因为满足其条件的主要规则决定了该实例的预测类别。
  • 条件逻辑: 规则以“如果-那么”语句的形式进行传达,捕捉分类的条件逻辑。“如果”部分根据信息亮点指定情况,“那么”部分显示预测的类别。
  • 决策层次: 规则的应用构成了决策层次。随着实例在规则中前进,决策过程由特定情况的满足来指导,最终导致分配类标签。

基于规则的分类涉及三个步骤。收集、清理和转换数据。之后,选择相关属性,然后生成决策规则。然后,使用支持度、置信度和提升度等度量来评估这些规则。

决策规则的类型

决策规则可以有多种形式,每种形式都有其用途。在本节中,我们将重点介绍三种特定类型。

1. 关联规则挖掘

关联规则旨在发现大型数据集中项目之间的有趣关系。这些模式通常从交易数据或项集中发现。这种挖掘类型通常涉及市场篮子分析,旨在了解客户的购买行为。

用于挖掘关联规则的算法示例

Apriori 算法: 生成项集并删除不符合最低要求的项集是这种流行技术的工作方式。它非常有名;如果您处理过数据,很可能已经见过它。例如,杂货店使用它来弄清楚“如果有人买了牛奶,那么他们很可能会买面包。”

关联规则挖掘的实际应用

  • 零售: 零售商希望了解产品之间的关系。这有助于他们将产品放置在货架上、推荐产品和计划促销活动。
  • 医疗保健: 目标始终是改善医疗治疗和诊断。在此处使用关联规则挖掘来查找治疗数据中的模式。
  • 网站使用: 这是我们日常互动的一个应用;网站使用它来更好地了解用户行为。此外,它还可以增强用户在其网站上的导航方式,并推荐能让用户保持参与的内容。

2. 分类规则挖掘

  • 顾名思义,分类规则挖掘会创建用于将数据分类到特定类别的规则。再一次,关联规则挖掘的这一侧有助于预测我们以前未见过的新实例。
  • C4.5 算法: C4.5 是一种广泛使用的分类规则挖掘算法,它构建决策树。它根据属性值递归地分割数据,以创建用于对数据实例进行分类的规则。
  • CART(分类和回归树): CART 是另一种基于决策树的算法,可以处理分类和回归任务。它以决策树的形式创建分类规则。

如何使用分类规则挖掘进行预测建模

分类规则挖掘对于预测建模至关重要。它使组织能够构建模型,根据训练期间生成的规则自动对新数据进行分类。例如,分类规则挖掘可用于医学领域,开发模型,根据患者的症状和病史预测患者患某种疾病的可能性。

3. 顺序规则挖掘

顺序规则挖掘在处理时间顺序数据时尤其相关,在这些数据中,事件或交易的顺序很重要。它涉及发现捕获按特定顺序发生的事件或项集序列的模式和规则。

顺序规则挖掘算法示例

GSP(广义顺序模式)算法: GSP 是一种用于挖掘顺序模式的流行算法。它识别顺序数据集中频繁的项序列。例如,在零售业中,GSP 可以发现客户在购物时经常购买牛奶、鸡蛋和面包。

顺序规则挖掘的实际应用

零售和电子商务:顺序规则挖掘有助于零售商了解客户购买的顺序模式,从而实现有针对性的营销和产品推荐。

  • 医疗保健: 分析患者的治疗史可以揭示不同治疗顺序的有效性。
  • 网站点击流分析: 通过了解用户与网页的互动顺序来优化网站导航和用户体验。

算法

1. 顺序覆盖算法

一种在数据挖掘中使用的基于规则的分类方法称为顺序覆盖。它旨在为数据实例生成 IF-THEN 分类规则的集合。该方法通过反复选择特征及其值来创建覆盖训练数据特定子集的规则,同时优化准确性。

输入

输出

Set of IF-THEN rules

算法

初始化一个空的规则集(Rules)。

当训练数据集 D 中仍有示例时

a. 对于属性列表中的每个属性 A

i) 对于 Attribute_Values[A] 中的每个可能的属性值 V:-

创建一条规则 R,其条件为“IF A = V”。-

计算规则 R 在 D 上的准确性。

a. 选择准确性最高的规则 R。

b. 将 R 添加到 Rules 集合中。d. 从 D 中删除已覆盖的示例。

返回 Rules 集合。

2. 1R(单规则)算法

1R,即单规则,是一种简单易懂的数据挖掘分类技术。主要目标是识别一个 IF-THEN 规则,该规则可以准确预测数据实例的类标签。在分析数据集中每个属性后,1R 会选择导致分类错误最少的属性-值对。

输入

输出

IF-THEN rule

算法

初始化一条空规则(Rule)。

对于属性列表中的每个属性 A

a. 对于 Attribute_Values[A] 中的每个可能的属性值 V

i) 创建一条规则 R,其条件为“IF A = V”。

ii) 计算规则 R 在 D 上的错误。

b. 选择错误最低的规则 R。

返回选定的规则作为 1R 规则。

基于规则的分类算法

基于规则的分类与其他分类方法的比较

基于规则的分类使用决策规则将数据放入不同的类别,而不是依赖神经网络或支持向量机。此方法有几个特点使其与其他方法区分开来

  • 易于理解: 此方法中的规则通常采用“如果-那么”格式。使人类易于解释和理解。在需要解释以做出明智决策的领域,这一点至关重要。
  • 简单性: 这里使用的规则与其他方法相比相对简单。只需要少量规则即可进行分类。需求减少,速度更快,资源使用量更低。
  • 显式知识提取: 每条规则都包含有关数据集中变量之间关系的信息。您不仅可以使用这些信息进行分类,还可以基于此做出明智的决策,并了解数据中的底层模式。
  • 规则创建: 有几种不同的方法用于创建规则。其中一种涉及利用数据的特征来创建规则。这称为规则归纳过程。另一方面,神经网络和深度学习使用复杂的数学变换来创建它们。
  • 填补空白: 如果数据缺失,大多数方法会忽略它并继续处理,就好像它不存在一样。但基于规则的分类则不同!它们可以以允许它们做出决策的方式处理缺失数据。即使它们没有特定条件的所有信息,可用的信息也足够了。
  • 可扩展性: 如果您处理的是大型数据集,基于规则的分类是您的最佳选择。规则的生成和评估可以非常高效,因此您不必长时间等待结果。

结论

总之,数据挖掘中的基于规则的分类提供了一种从复杂数据集中提取可操作见解的有价值的方法。决策规则使各个领域的企业能够做出明智的决策,增强预测建模,并驱动有意义的结果。随着技术的进步,基于规则的分类仍然是数据驱动决策的关键工具。