大数据定义

17 Mar 2025 | 6 分钟阅读

什么是数据?

数据是一组用于特定目的收集、存储和传输信息的字符。数据可以是任何形式,即文本、图像、音频等。数据来自拉丁语 “Datum”,意为 “给予的某物”。当数据被处理后,就被称为“信息”。

Big Data Definition

什么是大数据?

大数据指的是一组非常 庞大且复杂 的数据集,这些数据集难以使用传统的或手动数据库管理工具进行处理。数据量 呈指数级增长,通常以 TB 甚至更多。

例如,每天在 Twitter 上会生成超过 5 亿条推文;Netflix 在全球拥有超过 2.2 亿付费会员;Facebook 每天有超过 20 亿用户。这些统计数据数量巨大,并且每年都在呈指数级增长,因此可以归类为大数据。

我们如何将任何数据归类为大数据?

为了将任何数据集归类为大数据,在 2001 年引入了“大数据的 3V”,后来更新为“5V”。这 5V 是:

  1. 容量 (Volume):容量指数据的 “大小” 或数量。例如,YouTube 拥有超过 26 亿月活跃用户,每天生成大量数据,无法手动处理;因此,需要使用现代技术和工具来处理如此海量的数据。
  2. 速度 (Velocity):速度指数据累积的 “速率”。2010 年,YouTube 拥有 2 亿月活跃用户,到 2022 年增至 26 亿。
  3. 多样性 (Variety):多样性指数据的 “异质性” 或多样化。数据可以是结构化的、非结构化的或半结构化的。
  4. 真实性 (Veracity):真实性指数据的 “可信度” 或质量。这意味着数据是否没有各种歧义。
  5. 价值 (Value):价值指从数据中获得的 “洞察”。这意味着给定的数据集是否产生了任何有用的结果。原始数据本身没有有价值的结果,但一旦经过高效处理,就可以为我们提供重要的洞察,有助于决策。

大数据类型

大数据有三种类型:结构化数据、半结构化数据和非结构化数据。

  1. 结构化数据:任何具有固定格式的数据都称为结构化数据。它只能以特定格式进行访问、存储或处理。这类数据以表格形式存储,包含行和列。任何 Excel 文件或 SQL 文件都是结构化数据的例子。
  2. 非结构化数据:非结构化数据没有固定格式。它们以未知格式存储。这类数据称为非结构化数据。非结构化数据的例子是包含文本、图像、视频等的网页。
  3. 半结构化数据:半结构化数据是结构化和非结构化数据形式的组合。它不包含表格来显示关系;它包含标签或其他标记来显示层次结构。JSON 文件、XML 文件和 CSV 文件(逗号分隔文件)是半结构化数据的例子。我们发送或接收的电子邮件也是半结构化数据的例子。

大数据用例

  1. 社交媒体和娱乐:您一定见过 Netflix 等流媒体服务应用根据您的先前搜索和观看内容推荐节目和电影。这是使用大数据概念实现的。Netflix 和其他流媒体应用会创建自定义用户配置文件,存储用户的各种数据,包括搜索历史、观看历史、最常观看的类型、最常观看的时间段、每天的流媒体时间等,并进行分析,然后进行推荐。这有助于为用户提供更好的流媒体体验。
  2. 购物:亚马逊、 Flipkart 等网站也使用大数据根据您的先前购买记录、搜索历史和兴趣推荐产品。这样做是为了最大化利润并为客户提供更好的购物体验。
  3. 教育:大数据有助于分析和监控学生的行为和活动,例如回答问题所需的时间、跳过的问题数量以及跳过问题的难度级别,从而帮助学生分析他们的整体准备情况、薄弱环节和强项等。
  4. 医疗保健:医疗保健行业使用大数据来跟踪和分析患者的健康和健身状况、就诊次数、患者错过预约的次数等。通过分析数据和使用算法,可以预测大规模疾病爆发。
  5. 交通运输:通过收集和分析安装在道路和公路上的各种传感器和摄像头的数据来控制交通。借助大数据分析,可以检测出事故多发区域;因此,可以采取必要的措施来避免事故。

大数据演进

  • 最早的数据跟踪和分析记录并非发生在几十年前,而是发生在数千年前,当时簿记在美索不达米亚首次出现。
  • 20 世纪,IBM 开发了第一项大规模数据项目——穿孔卡系统,该系统记录了数百万美国人的信息。
  • 随着万维网和超级计算机在 20 世纪 90 年代的出现,大规模数据创建开始呈指数级增长。正是 20 世纪 90 年代初,“大数据”一词首次被使用。
  • 关于“大数据”的两个主要挑战是存储和处理如此巨大的数据量。
  • 2005 年,雅虎创建了开源框架 Hadoop,用于存储和处理大型数据集。
  • Hadoop 中的存储解决方案名为 HDFS(Hadoop 分布式文件系统),处理解决方案名为 MapReduce。
  • 后来,Hadoop 被移交给了一个开源的非盈利性组织:Apache 软件基金会
  • 2008 年,Cloudera 成为第一家提供商业 Hadoop 发行版的公司。
  • 2013 年,Apache Spark 的创建者成立了一家公司 Databricks,该公司提供大数据和机器学习解决方案平台。
  • 在过去的几年里,像 微软、谷歌和亚马逊 等主要云提供商也开始提供大数据解决方案。这些云提供商使得用户和公司能够更轻松地处理大数据。

你知道吗?

2009 年,印度政府将所有公民的指纹和虹膜扫描存储在有史以来最大的数据库中。

Hadoop 简介

Hadoop 由 Doug Cutting 和 Mike Cafarella 于 2005 年创立,是一个开源框架,可高效地存储和处理大数据。Hadoop 是一个基于 Java 的框架。Apache 软件基金会负责管理 Hadoop。Hadoop 的主要组件是 HDFS(Hadoop 分布式文件系统)和 MapReduce。作为一个开源平台,Hadoop 具有成本效益。它的速度和存储大量数据的能力使其受到许多顶级公司的青睐。Facebook、Twitter、LinkedIn 等公司使用 Hadoop 来处理大数据。

大数据的重要性

  1. 更好地了解市场状况。
  2. 节省时间和成本。
  3. 解决广告商的问题。
  4. 提供更好的市场洞察。
  5. 促进客户获取和留存。

大数据的应用

大数据应用于各个领域,例如:

  1. 银行业和安全性
  2. 社交媒体和娱乐
  3. 电子商务网站
  4. 医疗保健
  5. 教育
  6. 交通运输

大数据分析

大数据分析利用现代工具和技术,通过大量结构化、半结构化或非结构化数据 提取有价值的洞察、趋势、隐藏模式和关系。它有助于 更好地决策 并优化业务运营。

让我们以 YouTube 为例,它拥有超过 26 亿月活跃用户。它每天都会生成大量数据。借助这些数据,它可以根据您之前观看的内容、您的点赞、分享等来推荐视频。实现这一切的是大数据分析所产生的工具和框架。

大数据分析类型

  1. 描述性分析 (Descriptive Analytics):这种类型的分析基于 传入 的数据进行总结或提取洞察。我们基于数据得出了描述。例如,为您的 YouTube 频道提取的洞察基于您视频的点赞、分享和观看次数等数据。
  2. 预测性分析 (Predictive Analytics):这种类型的分析 预测 可能会发生什么。例如,“如何”和“为什么”这类问题揭示了有助于预测未来趋势的特定模式。机器学习概念也用于此类分析。例如,天气预测,飞机零件故障预测等。
  3. 规范性分析 (Prescriptive Analytics):这类分析基于规则和建议,从而规定了一个分析路径。分析通常基于问题 “应该采取什么行动?”。谷歌的自动驾驶汽车是规范性分析的一个例子。
  4. 诊断性分析 (Diagnostic Analytics):这些分析着眼于过去的趋势,并诊断“发生了什么”和“为什么会发生”这类问题。它也称为行为分析。此分析旨在回答 “为什么会发生这种情况?” 的问题。例如,如果一家公司的销售报告显示销售额有所增长,那么该公司可以分析导致增长的内部和外部原因。

下一个主题积分定义