数据挖掘 vs 机器学习17 Mar 2025 | 5 分钟阅读 数据挖掘是指从海量数据中提取信息。数据挖掘是一种发现数据集中固有的、精确、新颖且有价值的各种模式的技術。数据挖掘是商业分析的一个子集,类似于实验研究。数据挖掘的起源是数据库和统计学。 机器学习包括能够通过基于数据的经验自动改进的算法。机器学习是一种从经验中寻找新算法的方法。机器学习包括对能够自动提取数据的算法的研究。机器学习利用数据挖掘技术和其他学习算法来构建模型,以解释某些信息背后的情况,从而能够预测未来的结果。 数据挖掘和机器学习是相互影响的领域,尽管它们有很多共同之处,但它们的最终目标却不同。 数据挖掘由人类在特定数据集上进行,以发现数据集中项之间的有趣模式。数据挖掘使用机器学习创建的技术来预测结果,而机器学习是计算机从已挖掘的数据集中学习的能力。 机器学习算法接收代表数据集中项之间关系的这些信息,并创建模型以预测未来结果。这些模型不过是机器为实现结果而将采取的行动。 什么是数据挖掘?数据挖掘是从海量数据集中提取数据或先前未知数据模式的方法。因此,正如其字面意思,我们从大数据集中“挖掘特定数据”。数据挖掘也称为知识发现过程,是一个用于确定数据集属性的科学领域。Gregory Piatetsky-Shapiro 于 1989 年创立了“数据库中的知识发现”(KDD) 一词。 “数据挖掘”一词于 1990 年进入数据库社区。从数据仓库或时间序列、空间等复杂数据集收集的海量数据被提取出来,以发现数据项之间有趣的关联和模式。对于机器学习算法,数据挖掘算法的输出通常用作输入。 什么是机器学习?机器学习与开发和设计机器有关,这种机器可以从指定的数据集中自行学习以获得期望的结果,而无需显式编程。因此,机器学习意味着“机器自主学习”。 Arthur Samuel 在 1959 年发明了机器学习一词,他是一位美国计算机游戏和人工智能领域的先驱。他说:“它使计算机能够学习,而无需显式编程。” 机器学习是一种创建复杂算法来处理大量数据并为用户提供结果的技术。它利用可以从经验中学习并做出预测的复杂程序。 算法通过频繁输入训练数据来不断优化自身。机器学习的目的是理解信息,并从数据中构建人类可以理解和使用的模型。 机器学习算法分为两类
1. 无监督机器学习 无监督学习不依赖于训练数据集来预测结果,而是利用聚类和关联等直接技术来预测结果。训练数据集被定义为已知输出的输入。 2. 有监督机器学习 顾名思义,有监督学习是指存在监督者(老师)。有监督学习是一个学习过程,在这个过程中,我们使用带有良好标签的数据来教授或训练机器,这意味着一些数据已经被标记了正确的答案。之后,机器会被提供新的数据集,以便有监督学习算法分析训练数据,并从标记数据中给出准确的结果。 数据挖掘与机器学习的主要区别1. 介绍数据挖掘技术使用了两个组成部分:第一个是数据库,第二个是机器学习。数据库提供数据管理技术,而机器学习提供数据分析方法。但是,为了介绍机器学习方法,它使用了算法。 2. 数据挖掘利用更多数据来获取有用的信息,而这些特定数据将有助于预测未来的结果。例如,营销公司利用去年的数据来预测销售额,但机器学习在很大程度上不依赖于数据。它使用算法。许多交通公司(如 OLA、UBER)使用机器学习技术来计算乘车 ETA(预计到达时间),这就是基于这种技术。 3. 数据挖掘本身不具备自学习能力。它遵循预定义的规则。它将为特定问题提供答案,但机器学习算法是自定义的,可以根据情况更改其规则,找到特定问题的解决方案并以自己的方式解决它。 4. 数据挖掘与机器学习之间最重要也是最主要区别在于,没有人类的参与,数据挖掘就无法工作。但在机器学习的情况下,人类的努力仅在定义算法时涉及,之后它将完全自行得出结论。一旦实现,我们就可以永远使用它,但这在数据挖掘中是不可能的。 5. 由于机器学习是一个自动化过程,机器学习产生的结果将比数据挖掘更精确。 6. 数据挖掘利用数据库、数据仓库服务器、数据挖掘引擎和模式评估技术来获取有用信息,而机器学习则利用神经网络、预测模型和自动化算法来做出决策。 数据挖掘与机器学习![]()
下一主题Facebook 数据挖掘 |
我们请求您订阅我们的新闻通讯以获取最新更新。