数据挖掘的历史

2024 年 8 月 29 日 | 阅读 2 分钟

1990 年代,"数据挖掘" 这个术语被引入,但数据挖掘是一个有着悠久历史的领域演变而来。

早期识别数据模式的技术包括贝叶斯定理(1700 年代)和回归的演变(1800 年代)。计算机科学的产生和日益增长的力量促进了数据收集、存储和操作,因为数据集的规模和复杂程度都在不断扩大。 显式的手工数据调查逐渐被间接的、自动的数据处理和其他计算机科学发现所改进,例如神经网络、聚类、遗传算法(1950 年代)、决策树(1960 年代)和支持向量机(1990 年代)。

数据挖掘的起源可以追溯到三个家族:经典统计学、人工智能和机器学习。

经典统计学

统计学是构建数据挖掘的大多数技术的基础,例如回归分析、标准差、标准分布、标准方差、判别分析、聚类分析和置信区间。 所有这些都用于分析数据和数据连接。

人工智能

AI 或人工智能基于启发式方法,而不是统计学。 它试图将类似人类思维的处理应用于统计问题。 一些高端商业产品采用了特定的人工智能概念,例如关系数据库管理系统 (RDBMS) 的查询优化模块。

机器学习

机器学习是统计学和人工智能的结合。 它可以被认为是人工智能的演变,因为它将人工智能启发式与复杂的统计分析相结合。 机器学习试图使计算机程序能够了解它们正在研究的数据,以便程序根据所检查的数据的特征做出不同的决定。 它使用统计学作为基本概念,并添加更多的人工智能启发式和算法来实现其目标。


下一个主题数据挖掘工具