什么是大数据2024 年 8 月 28 日 | 阅读 2 分钟 大数据是指数据量非常大的数据。 通常我们处理的数据大小是 MB(WordDoc、Excel)或最大 GB(电影、代码),但 PB 级(即 10^15 字节大小)的数据称为大数据。 据说,当今大约 90% 的数据是在过去 3 年内生成的。 大数据来源这些数据来自许多来源,例如
大数据 3V 特性
使用场景电子商务网站 XYZ(拥有 1 亿用户)希望向其过去一年消费最多的前 10 名客户提供 100 美元的礼券。此外,他们希望找到这些客户的购买趋势,以便公司可以向他们推荐更多相关商品。 问题需要存储、处理和分析的大量非结构化数据。 解决方案存储: 对于如此大量的数据,Hadoop 使用 HDFS(Hadoop 分布式文件系统),它使用商用硬件形成集群,并以分布式方式存储数据。 它遵循“一次写入,多次读取”的原则。 处理: Map Reduce 范例应用于网络上分布的数据,以找到所需的输出。 分析: Pig、Hive 可用于分析数据。 成本: Hadoop 是开源的,所以成本不再是问题。 下一主题什么是 Hadoop |
我们请求您订阅我们的新闻通讯以获取最新更新。