数据挖掘中的CRISP是什么?2025年3月17日 | 阅读 14 分钟 CRISP-DM 代表跨行业数据挖掘标准流程。CRISP-DM 方法论提供了一种规划数据挖掘项目的结构化方法。它是一种强大且久经考验的方法论。我们不声称对其拥有任何所有权。我们不是发明者。当我们利用分析来解决业务问题时,我们是其强大实用性、灵活性和有用性的传播者。它是贯穿几乎每一次客户会议的一条黄金主线。 这个模型是一个理想化的事件顺序。在实践中,许多任务可以按不同的顺序执行,并且通常需要回溯到之前的任务并重复某些操作。该模型不试图捕捉数据挖掘过程中的所有可能路线。 CRISP 如何提供帮助?CRISP DM 提供路线图,为您提供最佳实践,并提供结构,以更有效、更快速地利用数据挖掘的结果,这就是它如何帮助业务在规划和执行数据挖掘项目时进行遵循。 CRISP-DM 的阶段CRISP-DM 以过程模型的方式概述了数据挖掘的生命周期。生命周期模型包含六个阶段,箭头指示了阶段之间最重要和最频繁的依赖关系。阶段的顺序不是严格的。并且大多数项目会根据需要来回切换阶段。CRISP-DM 模型是灵活的,可以轻松定制。 例如,如果您的组织旨在检测洗钱,您很可能会在没有特定建模目标的情况下筛选大量数据。您的工作将侧重于数据探索和可视化,以发现金融数据中的可疑模式,而不是建模。CRISP-DM 允许您创建适合您需求的数据挖掘模型。 它包括对项目典型阶段的描述、每个阶段涉及的任务以及对这些任务之间关系的解释。 ![]() 阶段 1:业务理解CRISP-DM 流程的第一阶段是从业务角度理解您想要实现的目标。您的组织可能存在相互竞争的目标和限制,必须对其进行适当的权衡。此流程阶段旨在揭示影响项目结果的重要因素。忽略这一步可能意味着付出了大量努力来回答错误问题。 项目希望达到的预期产出是什么?
评估当前情况 这涉及更详细的事实调查,了解您在确定数据分析目标和项目计划时需要考虑的资源、限制、假设和其他因素。
确定数据挖掘目标 业务目标以业务术语陈述目标。数据挖掘目标以技术术语陈述项目目标。例如,业务目标可能是“增加向现有客户的目录销售额”。数据挖掘目标可能是“预测给定客户过去三年的购买记录、人口统计信息(年龄、薪水、城市等)以及商品价格,该客户将购买多少小部件”。
制定项目计划 描述实现数据挖掘目标和业务目标的预期计划。您的计划应规定在项目其余部分执行的步骤,包括初步的工具和技术选择。 1. 项目计划:列出项目将执行的阶段、持续时间、所需资源、输入、输出和依赖关系。在可能的情况下,尝试明确数据挖掘过程中的大型迭代,例如建模和评估阶段的重复。 作为项目计划的一部分,分析时间表和风险之间的依赖关系很重要。在项目计划中明确标记这些分析的结果,如果风险显现,最好附带行动和建议。决定在评估阶段将使用哪种评估策略。 您的项目计划将是一个动态文档。在每个阶段结束时,您将审查进度和成就,并相应地更新项目计划。这些更新的特定审查点应包含在项目计划中。 2. 工具和技术的初步评估:在第一阶段结束时,您应该对工具和技术进行初步评估。例如,您选择一个数据挖掘工具,该工具支持流程不同阶段的各种方法。在流程早期评估工具和技术很重要,因为工具和技术的选择可能会影响整个项目。 阶段 2:数据理解CRISP-DM 流程的第二阶段要求您获取项目资源中列出的数据。此初始收集包括数据加载,如果这是数据理解所必需的。例如,如果您使用特定的工具进行数据理解,那么将数据加载到该工具中是很有意义的。如果您获取多个数据源,您需要考虑如何以及何时将它们集成。
描述数据 检查已获取数据的“粗略”或“表面”属性并报告结果。
探索数据 在此阶段,您将使用查询、数据可视化和报告技术来解决数据挖掘问题。这些可能包括
这些分析可能直接解决您数据挖掘目标。它们可以促进或完善数据描述和质量报告,并为进一步分析所需的数据转换和其他数据准备步骤提供信息。
验证数据质量 检查数据的质量,回答以下问题
数据质量报告 列出数据质量验证的结果。如果存在质量问题,请提出可能的解决方案。数据质量问题的解决方案通常在很大程度上取决于数据和业务知识。 阶段 3:数据准备在此项目阶段,您将决定将用于分析的数据。您可能用于做出此决定的标准包括数据与数据挖掘目标的相关性、数据的质量以及技术限制,例如数据量或数据类型的限制。
清理数据 此任务包括将数据质量提高到所选分析技术所需的水平。这可能涉及选择数据的干净子集、插入合适的默认值,或更复杂的技巧,例如通过建模估算缺失数据。
构建所需数据 此任务包括建设性的数据准备操作,例如生成派生属性、完整的记录或现有属性的转换值。
整合数据 这些方法将来自多个数据库、表或记录的信息合并,以创建新的记录或值。
阶段 4:建模选择建模技术:作为第一步,您将选择将使用的基本建模技术。尽管您可能在业务理解阶段已经选择了一个工具,但在这一阶段,您将选择具体的建模技术,例如使用 C5.0 构建决策树或使用反向传播生成神经网络。如果应用多种技术,则为每种技术单独执行此任务。
生成测试设计 在构建模型之前,您需要生成一个程序或机制来测试模型的质量和有效性。例如,在分类等监督数据挖掘任务中,通常使用错误率作为数据挖掘模型的质量度量。因此,您通常会将数据集分成训练集和测试集,在训练集上构建模型,并在单独的测试集上评估其质量。
构建模型 在准备好的数据集上运行建模工具以创建一种或多种模型。
评估模型 根据您的领域知识、数据挖掘成功标准和期望的测试设计来解释模型。判断建模和发现技术的应用是否成功,然后在稍后联系业务分析师和领域专家以在业务背景下讨论数据挖掘结果。此任务仅考虑模型,而评估阶段还考虑在项目期间生成的所有其他结果。 在此阶段,您应该对模型进行排名,并根据评估标准对其进行评估。您应该尽可能在此处考虑业务目标和成功标准。在大多数数据挖掘项目中,一种技术会应用多次,并且数据挖掘结果会使用多种不同的技术生成。
阶段 5:评估评估结果:之前的评估步骤处理了准确性和模型泛化性等因素。在此步骤中,您将评估模型满足业务目标的程度,并确定是否存在某些业务原因导致该模型存在缺陷。另一种选择是,如果时间和预算限制允许,则在实际应用中测试模型。评估阶段还包括评估您生成的任何其他数据挖掘结果。数据挖掘结果包括必然与原始业务目标相关的模型,以及不一定与原始业务目标相关但可能揭示额外挑战、信息或未来方向线索的所有其他发现。
审查流程 此时,模型看起来令人满意并满足业务需求。现在是时候对数据挖掘参与进行更彻底的审查,以确定是否有重要的因素或任务被忽略了。此审查还涵盖质量保证问题。例如:我们是否正确构建了模型?我们是否仅使用了被允许使用且可用于未来分析的属性?
确定下一步 现在,您将根据评估结果和流程审查来决定如何进行。您是完成此项目并进行部署,还是启动进一步的迭代,或者设置新的数据挖掘项目?您还应该盘点剩余的资源和预算,这可能会影响您的决定。
阶段 6:部署规划部署:在部署阶段,您将根据评估结果并确定其部署策略。如果已确定创建相关模型的通用程序,则在此处记录该程序以便以后部署。在业务理解阶段考虑部署的方式和方法是明智的,因为部署对项目的成功至关重要。这就是预测分析有助于改善您的业务运营方面。
规划监控和维护 如果数据挖掘结果成为日常业务及其环境的一部分,则监控和维护是很重要的问题。精心准备的维护策略有助于避免数据挖掘结果不必要地长时间被错误使用。项目需要详细的监控流程计划来监控数据挖掘结果的部署。该计划考虑了部署的具体类型。
生成最终报告 项目结束时,您将编写一份最终报告。根据部署计划,该报告可能仅仅是项目及其经验的总结(如果它们尚未被记录为持续活动),或者它可能是数据挖掘结果的最终和全面演示。
审查项目 评估哪些方面做得好,哪些方面做得不好,哪些方面做得好,哪些方面需要改进。
下一个主题数据挖掘中的 FP Growth 算法 |
我们请求您订阅我们的新闻通讯以获取最新更新。