数据挖掘与大数据

17 Mar 2025 | 5 分钟阅读

数据挖掘使用统计模型、机器学习和可视化等工具来“挖掘”（提取）大数据中有用的数据和模式，而大数据则处理高容量和高速数据，这在旧的数据库和分析程序中很难做到。

大数据

大数据是指数量庞大，可以是结构化、半结构化和非结构化数据集，以 TB 为单位。在单个系统上处理如此庞大的数据具有挑战性，这就是为什么我们计算机的 RAM 在处理和分析过程中存储临时计算的原因。当我们尝试处理如此庞大的数据时，在单个系统上执行这些处理步骤需要很长时间。此外，由于过载，我们的计算机系统无法正常工作。

在这里，我们将通过一个实际例子来理解这个概念（产生了多少数据）。我们都知道大卖场。我们作为顾客至少每月去大卖场一次。这些商店会监控顾客从他们那里购买的每件产品，以及从世界各地的哪个商店位置购买。他们有一个实时信息输入系统，将所有数据存储在巨大的中央服务器中。想象一下，仅在印度就有大约 250 家大卖场。监控每个顾客购买的每一件商品以及商品描述，每月的数据量将达到 1 TB 左右。

大卖场如何处理这些数据

我们知道大卖场正在对某些商品进行促销。我们真的相信大卖场会在没有任何充分的后端支持下就推出这些产品，以发现这些促销活动会增加他们的销售额并产生盈余吗？这正是大数据分析发挥关键作用的地方。大卖场利用数据分析技术，针对新客户和现有客户，鼓励他们在其商店购买更多商品。

大数据包括 5 个 Vs，即容量（Volume）、多样性（Variety）、速度（Velocity）、真实性（Veracity）和价值（Value）。

容量：在大数据中，容量是指数据量，在大数据中可能非常庞大。

多样性：在大数据中，多样性指的是各种类型的数据，例如网络服务器日志、社交媒体数据、公司数据。

速度：在大数据中，速度指的是数据随时间增长的速度。一般来说，数据正以非常快的速度呈指数级增长。

真实性：大数据真实性指的是数据的不确定性。

价值：在大数据中，价值指的是我们存储和处理的数据是否有价值，以及我们如何利用这些庞大的数据集来获得优势。

如何处理大数据

一种非常有效的方法，称为 Hadoop，主要用于大数据处理。它是一个基于分布式并行处理方法的开源软件。

Apache Hadoop 方法包含以下模块

Hadoop Common

它包含其他 Hadoop 模块所需的字典和实用程序。

Hadoop 分布式文件系统（HDFS）

一个分布式文件系统，将数据存储在商用机器上，支持集群上非常高的总带宽。

Hadoop YARN

它是一个资源管理平台，负责管理集群中的各种资源，并利用它们来调度用户的应用程序。

Hadoop MapReduce

它是一个用于大规模数据处理的编程模型。

数据挖掘

顾名思义，数据挖掘指的是挖掘大量数据集以识别趋势、模式并提取有用信息的过程，这被称为数据挖掘。

在数据挖掘中，我们正在寻找隐藏的数据，但不知道我们正在寻找什么类型的数据，也不知道一旦找到它我们将计划如何使用它。当我们发现有趣的信息时，我们开始思考如何利用它来促进业务。

我们将通过一个例子来理解数据挖掘的概念

一个数据挖掘师开始发掘移动网络运营商的通话记录，而没有经理的特定目标。经理可能给他一个重要目标，在一个月内发现至少几个新模式。当他开始提取数据时，发现相比其他所有日子，周五有一些国际通话（例如）。现在他将这些数据与管理层分享，他们提出了一个计划，降低周五的国际通话费率并启动一项活动。通话时长增加，客户对低通话费率感到满意，更多客户加入，组织获得更多利润，因为利用率百分比提高了。

数据挖掘涉及多个步骤

数据集成

第一步，数据从各种来源进行整合和收集。

数据选择

在第一步中，我们可能不会同时收集所有数据，因此在这一步中，我们只选择那些剩余的且我们认为对数据挖掘有用的数据。

数据清理

在这一步中，我们收集的信息不干净，可能包含错误、噪声或不一致的数据、缺失值。因此我们需要实施各种策略来摆脱这些问题。

数据转换

即使清洗后，数据也未准备好进行挖掘，因此我们需要将其转换为适合挖掘的结构。用于实现此目的的方法有聚合、归一化、平滑等。

数据挖掘

一旦数据转换完成，我们就可以在数据上实施数据挖掘方法，从数据集中提取有用的数据和模式。聚类关联规则等技术是用于数据挖掘的众多技术之一。

模式评估

模式评估包括对我们生成的模式进行可视化、去除随机模式、转换等。

决定

这是数据挖掘的最后一步。它帮助用户利用获取的用户数据来做出更好的数据驱动决策。