数据挖掘实施流程

17 Mar 2025 | 6 分钟阅读

制造业、化工、营销、航空航天等众多不同行业都在利用数据挖掘来提高其业务效率。因此,对传统数据挖掘流程的需求得到了有效的改进。数据挖掘技术必须可靠,公司人员能够以很少或没有数据挖掘背景知识的知识来重复执行。因此,跨行业标准数据挖掘流程 (CRISP-DM) 在经历多次研讨会和 300 多个组织的贡献后,于 1990 年首次推出。

数据挖掘被描述为一种通过评估数据仓库中存储的海量信息,使用人工智能 (AI)、机器学习和统计学等多种数据挖掘技术来查找隐藏的宝贵数据的方法。

Data Mining Implementation Process

让我们详细探讨数据挖掘的实施流程

跨行业标准数据挖掘流程 (CRISP-DM)

跨行业标准数据挖掘流程 (CRISP-DM) 包括六个阶段,设计为循环方法,如下图所示。

Data Mining Implementation Process

1. 业务理解

它侧重于从业务角度理解项目目标和需求,然后将其转换为数据挖掘问题,并随后制定初步计划以实现目标。

任务

  • 确定业务目标
  • 评估情况
  • 确定数据挖掘目标
  • 制定项目计划

确定业务目标

  • 从业务角度理解项目目标和先决条件。
  • 彻底了解客户想要实现的目标。
  • 揭示重要的因素,一开始,它可能会影响项目的最终结果。

评估情况

  • 需要更详细地分析所有资源、约束、假设以及其他需要考虑的因素。

确定数据挖掘目标

  • 业务目标以业务术语说明目标。例如,增加对现有客户的目录销售。
  • 数据挖掘目标描述项目目标。例如,假设客户会购买多少件商品,考虑到他们的年龄、收入和城市等人口统计信息以及过去三年的商品价格。

制定项目计划

  • 它说明了实现业务和数据挖掘计划的目标计划。
  • 项目计划应定义项目其余部分将执行的预期步骤集,包括最新技术和更好的工具选择。

2. 数据理解

数据理解始于原始数据收集,并继续进行操作以熟悉数据、识别数据质量问题、发现数据中的更好见解或检测有趣的子集以形成隐藏信息假设。

任务

  • 收集初始数据
  • 描述数据
  • 探索数据
  • 验证数据质量

收集初始数据

  • 它获取项目资源中提到的信息。
  • 如果需要,数据收集将包括数据加载以进行数据理解。
  • 这可能需要进行原始数据准备步骤。
  • 如果获取了多个信息源,那么集成是一个额外的问题,要么在这里,要么在后续的数据准备阶段。

描述数据

  • 它检查所获取信息的“粗略”或“表面”特征。
  • 它会报告结果。

探索数据

  • 通过**查询、可视化**和**报告**解决数据挖掘问题,包括
    • 重要特征的分布,简单聚合的结果。
    • 建立少数属性之间的关系。
    • 重要子群体的特征,简单的统计分析。
  • 这可能会优化数据挖掘目标。
  • 它可能会贡献或优化信息描述和质量报告。
  • 它可能会被用于转换和其他必要的信息准备。

验证数据质量

  • 它检查数据质量并回答问题。

3. 数据准备

  • 这通常需要 90% 以上的时间。
  • 它涵盖了从原始信息构建最终数据集的所有操作。
  • 数据准备可能需要多次进行,并且没有固定的顺序。

任务

  • 选择数据
  • 清理数据
  • 构建数据
  • 集成数据
  • 格式化数据

选择数据

  • 它决定使用哪些信息进行评估。
  • 数据选择标准包括与数据挖掘目标的相关性、质量和技术限制,例如数据量限制或数据类型。
  • 它包括特征的选择和表中文档的选择。

清理数据

  • 它可能包括选择干净的数据子集,插入适当的默认值或更高级的方法,例如通过建模估算缺失信息。

构建数据

  • 它包括构建性数据准备,例如生成派生特征、完整的新文档或转换现有特征的值。

集成数据

  • 数据集成是指通过合并来自不同表或文档的数据来创建新文档或值的方法。

格式化数据

  • 数据格式化主要指对信息进行的语言更改,这些更改不会改变其意义,但可能需要建模工具。

4. 建模

在建模中,选择并应用各种建模方法,并优化其参数值。某些方法对数据形式有特定要求。因此,返回数据准备阶段是必要的。

任务

  • 选择建模技术
  • 生成测试设计
  • 构建模型
  • 评估模型

选择建模技术

  • 它选择要使用的实际建模方法。例如,决策树、神经网络。
  • 如果应用了多种方法,则对每种方法分别执行此任务。

生成测试设计

  • 在构建模型之前,生成一个用于测试模型有效性和质量的程序或机制。例如,在分类中,错误率通常用作数据挖掘模型的质量度量。因此,通常将数据集分为训练集和测试集,在训练集上构建模型,并在单独的测试集上评估其质量。

构建模型

  • 要创建一个或多个模型,我们需要在准备好的数据集上运行建模工具。

评估模型

  • 它根据领域知识、数据挖掘成功标准和所需设计来解释模型。
  • 它在技术上评估建模应用的成功率并发现方法。
  • 随后,它会联系业务分析师和领域专家,以讨论数据挖掘在业务背景下的结果。

5. 评价

  • 在此阶段结束时,应就数据挖掘结果的使用达成决定。
  • 它有效地评估模型,并回顾用于构建模型的步骤,以确保业务目标得到妥善实现。
  • 评估的主要目标是确定一些未被充分考虑的重要业务问题。
  • 在此阶段结束时,应就数据挖掘结果的使用达成决定。

任务

  • 评估结果
  • 审查过程
  • 确定后续步骤

评估结果

  • 它评估模型在多大程度上满足组织的业务目标。
  • 在时间和预算限制允许的情况下,它会在实际部署中测试模型在测试应用程序上的表现,并评估产生其他数据挖掘结果。
  • 它揭示了额外的挑战、建议或未来指导信息。

审查过程

  • 审查过程对数据挖掘参与情况进行更详细的评估,以确定是否存在被某种方式忽略的重要因素或任务。
  • 它审查质量保证问题。

确定后续步骤

  • 它决定在此阶段如何进行。
  • 它决定是完成项目并必要时进入部署阶段,还是启动进一步的迭代或建立新的数据挖掘项目。这包括影响决策的资源分析和预算。

6. 部署

确定

  • 部署是指如何使用结果。

通过以下方式部署数据挖掘结果:

  • 它包括对数据库进行评分、将结果用作公司指南、交互式互联网评分。
  • 获得的信息将需要以客户可以使用的方式进行组织和呈现。但是,部署阶段可以很简单,例如生成报告,也可以很复杂,例如在整个组织中应用可重复的数据挖掘方法。

任务

  • 规划部署
  • 规划监控和维护
  • 生成最终报告
  • 审查项目

规划部署

  • 将数据挖掘结果部署到业务中,需要评估结果并制定部署策略。
  • 它指的是记录过程以供以后部署。

规划监控和维护

  • 当数据挖掘结果成为日常业务及其环境的一部分时,这一点很重要。
  • 这有助于避免数据挖掘结果的长时间不当使用。
  • 这需要对监控过程进行详细分析。

生成最终报告

  • 项目负责人及其团队可以起草一份最终报告。
  • 这可能只是项目及其经验的总结。
  • 这可能是数据挖掘的最终全面演示。

审查项目

  • 审查项目评估了哪些方面做得好,哪些方面做得不好,哪些方面做错了,以及需要改进的地方。

下一主题数据挖掘架构