什么是大数据

2024 年 8 月 28 日 | 阅读 2 分钟

大数据是指数据量非常大的数据。 通常我们处理的数据大小是 MB(WordDoc、Excel)或最大 GB(电影、代码),但 PB 级(即 10^15 字节大小)的数据称为大数据。 据说,当今大约 90% 的数据是在过去 3 年内生成的。

大数据来源

这些数据来自许多来源,例如

  • 社交网站: Facebook、Google、LinkedIn 等网站每天都会产生大量数据,因为它们在全球拥有数十亿用户。
  • 电子商务网站: 亚马逊、Flipkart、阿里巴巴等网站会生成大量日志,从中可以追踪用户的购买趋势。
  • 气象站: 所有的气象站和卫星都会提供非常庞大的数据,这些数据被存储和处理以预测天气。
  • 电信公司: Airtel、沃达丰等电信巨头研究用户趋势,并相应地发布其计划,为此他们存储了数百万用户的数据。
  • 股票市场: 世界各地的证券交易所每天通过其交易产生大量数据。

大数据 3V 特性

  1. 速度(Velocity): 数据的增长速度非常快。 据估计,数据量每 2 年就会翻一番。
  2. 多样性(Variety): 如今,数据不再以行和列的形式存储。 数据既有结构化的,也有非结构化的。 日志文件、闭路电视录像就是非结构化数据。 可以保存在表中的数据是结构化数据,例如银行的交易数据。
  3. 体量(Volume): 我们处理的数据量非常大,达到 PB 级。

使用场景

电子商务网站 XYZ(拥有 1 亿用户)希望向其过去一年消费最多的前 10 名客户提供 100 美元的礼券。此外,他们希望找到这些客户的购买趋势,以便公司可以向他们推荐更多相关商品。

问题

需要存储、处理和分析的大量非结构化数据。

解决方案

存储: 对于如此大量的数据,Hadoop 使用 HDFS(Hadoop 分布式文件系统),它使用商用硬件形成集群,并以分布式方式存储数据。 它遵循“一次写入,多次读取”的原则。

处理: Map Reduce 范例应用于网络上分布的数据,以找到所需的输出。

分析: Pig、Hive 可用于分析数据。

成本: Hadoop 是开源的,所以成本不再是问题。

下一主题什么是 Hadoop