KDD vs 数据挖掘

17 Mar 2025 | 5 分钟阅读

KDD(知识发现数据库,Knowledge Discovery in Databases)是计算机科学的一个领域,它包括帮助人们从大量数字化数据中提取有用且先前未知信息(即知识)的工具和理论。KDD 包含多个步骤,数据挖掘是其中之一。数据挖掘是应用特定算法从数据中提取模式。尽管如此,KDD 和数据挖掘经常被互换使用。

什么是 KDD?

KDD 是一个计算机科学领域,专注于从原始数据中提取先前未知且有趣的信息。KDD 是通过开发适当的方法或技术来尝试理解数据的整个过程。这个过程涉及将低级数据映射成更紧凑、更抽象、更有用的其他形式。这可以通过创建简短的报告、对数据生成过程进行建模以及开发可以预测未来案例的预测模型来实现。

由于数据呈指数级增长,尤其是在商业等领域,KDD 已成为一个非常重要的过程,用于将大量数据转化为商业智能,因为在过去的几十年里,手动提取模式已变得几乎不可能。

例如,它目前用于各种应用,如社交网络分析、欺诈检测、科学、投资、制造、电信、数据清理、体育、信息检索和营销。KDD 通常用于回答例如 V-Mart 下一年可能有助于获得高利润的主要产品是什么这类问题。

KDD 过程步骤

数据库知识发现过程包括以下步骤,例如:

KDD vs Data Mining
  1. 目标识别:开发和理解应用领域及相关先验知识,并从客户角度确定 KDD 过程的目标。
  2. 创建目标数据集:选择数据集或关注一组变量或数据样本,以便在此基础上进行发现。
  3. 数据清理和预处理:基本操作包括在适当的情况下去除噪声、收集必要的用于建模或解释噪声的信息、决定处理缺失数据字段的策略,以及处理时间序列信息和已知变化。
  4. 数据缩减和投影:根据任务目标找到用于表示数据的有用特征。可以通过降维方法或数据转换来减少考虑的变量的有效数量,或者可以找到数据的不变表示。
  5. 匹配过程目标:KDD 与步骤 1(一种特定的挖掘方法)匹配。例如,汇总、分类、回归、聚类等。
  6. 建模和探索性分析及假设选择:选择算法或数据挖掘方法,并选择方法或方法来搜索数据模式。这个过程包括决定哪些模型和参数可能是合适的(例如,确定性数据模型与真实向量上的不同模型),以及将数据挖掘方法与 KDD 过程的总体方法进行匹配(例如,最终用户可能更关注理解模型及其预测能力)。
  7. 数据挖掘:在特定表示形式或一组表示形式(包括分类规则或树、回归和聚类)中搜索感兴趣的模式。用户可以通过执行前面的步骤来极大地帮助数据挖掘方法。
  8. 呈现和评估:解释挖掘出的模式,可能返回到步骤 1 到 7 之间的某些步骤以进行进一步迭代。此步骤还可能涉及提取的模式和模型的可视化,或给定绘制的模型的数据可视化。
  9. 对发现的知识采取行动:直接使用知识,将知识纳入另一个系统以采取进一步行动,或简单地记录并向利益相关者报告。此过程还包括检查和解决与先前认为的知识(或提取的知识)可能存在的冲突。

什么是数据挖掘?

数据挖掘,也称为知识发现数据库,是指从数据库中存储的数据中提取隐含的、先前未知且可能有用信息的非平凡过程。

数据挖掘只是整个 KDD 过程中的一个步骤。根据应用的总体目标,定义了两个主要的数据挖掘目标:验证和发现。验证用于验证用户关于数据的假设,而发现则自动查找有趣的模式。

有四种主要的数据挖掘任务:聚类、分类、回归和关联(汇总)。聚类是识别非结构化数据中的相似组。分类是学习可应用于新数据的规则。回归是找到误差最小的函数来对数据进行建模。关联则查找变量之间的关系。然后,需要选择特定的数据挖掘算法。根据目标,可以选择不同的算法,如线性回归、逻辑回归、决策树和朴素贝叶斯。然后搜索一种或多种符号形式的感兴趣模式。最后,使用预测准确性或可理解性来评估模型。

为什么我们需要数据挖掘?

我们每天处理的信息量都在增加,这些信息来自业务交易、科学数据、传感器数据、图片、视频等。因此,我们需要一个能够提取可用信息精髓的系统,并且能够自动生成报告、视图或数据摘要,以便做出更好的决策。

为什么数据挖掘在商业中使用?

数据挖掘在商业中使用,通过以下方式做出更好的管理决策:

  • 自动汇总数据。
  • 在原始数据中发现模式。
  • 提取存储信息的精髓。

为什么需要 KDD 和数据挖掘?

在一个日益数据驱动的世界里,永远不会有“数据太多”的概念。然而,只有当你能够解析、排序和筛选数据以推断出实际价值时,数据才是有价值的。

大多数行业收集海量数据,但如果没有一个可以图形化、图表化和趋势化数据模型的过滤机制,纯粹的数据本身用途不大。

然而,庞大的数据量和收集数据的速度使得筛选数据变得困难。因此,在经济和科学上,提高我们的分析能力以处理我们现在获得的海量数据变得必要。

由于计算机使人类能够收集比我们能处理的更多数据,我们自然会转向计算技术来帮助我们从海量数据中提取有意义的模式和结构。

KDD 与数据挖掘的区别

尽管 KDD 和数据挖掘这两个术语经常被互换使用,但它们指的是两个相关但略有不同的概念。

KDD 是从数据中提取知识的整个过程,而数据挖掘是 KDD 过程中的一个步骤,它处理识别数据模式的问题。

数据挖掘只是基于 KDD 过程的总体目标应用特定算法。

KDD 是一个迭代过程,其中可以增强评估指标,精炼挖掘过程,并集成和转换新数据以获得不同且更合适的结果。