什么是 HIVE

2024 年 8 月 28 日 | 阅读 2 分钟

Hive 是一个数据仓库系统,用于分析结构化数据。 它建立在 Hadoop 之上。 它由 Facebook 开发。

Hive 提供了读取、写入和管理驻留在分布式存储中的大型数据集的功能。 它运行类似于 SQL 的查询,称为 HQL(Hive 查询语言),这些查询在内部转换为 MapReduce 作业。

使用 Hive,我们可以跳过编写复杂 MapReduce 程序的传统方法的要求。 Hive 支持数据定义语言 (DDL)、数据操作语言 (DML) 和用户定义函数 (UDF)。

Hive 的特点

以下是 Hive 的特点

  • Hive 速度快且可扩展。
  • 它提供类似于 SQL 的查询(即 HQL),这些查询被隐式转换为 MapReduce 或 Spark 作业。
  • 它能够分析存储在 HDFS 中的大型数据集。
  • 它允许不同的存储类型,例如纯文本、RCFile 和 HBase。
  • 它使用索引来加速查询。
  • 它可以在 Hadoop 生态系统中存储的压缩数据上运行。
  • 它支持用户定义函数 (UDF),用户可以在其中提供其功能。

Hive 的局限性

  • Hive 无法处理实时数据。
  • 它并非为在线事务处理而设计。
  • Hive 查询包含高延迟。

Hive 和 Pig 之间的区别

HivePig
数据分析师通常使用 Hive。程序员通常使用 Pig。
它遵循类似于 SQL 的查询。它遵循数据流语言。
它可以处理结构化数据。它可以处理半结构化数据。
它在 HDFS 集群的服务器端工作。它在 HDFS 集群的客户端工作。
Hive 比 Pig 慢。Pig 相对比 Hive 快。
下一主题Hive 架构