Hive 中的 Bucketing

17 Mar 2025 | 阅读 2 分钟

Hive中的bucketing是一种数据组织技术。它类似于Hive中的分区，并具有额外的功能，可以将大型数据集划分为更易于管理的部分，称为桶。因此，当分区实现变得困难时，我们可以使用Hive中的bucketing。但是，我们也可以将分区进一步划分为桶。

Hive中Bucketing的工作原理

bucketing的概念基于哈希技术。
这里，计算当前列值和所需桶的数量的模数 (例如，F(x) % 3)。
现在，根据结果值，数据存储在相应的桶中。

Hive中Bucketing的示例

首先，选择我们要创建表的数据库。

创建一个虚拟表来存储数据。

hive> create table emp_demo (Id int, Name string , Salary float)  
row format delimited  
fields terminated by ',' ; 

现在，将数据加载到表中。

hive> load data local inpath '/home/codegyani/hive/emp_details' into table emp_demo;

使用以下命令启用bucketing：-

使用以下命令创建bucketing表：-

hive> create table emp_bucket(Id int, Name string , Salary float)  
clustered by (Id) into 3 buckets
row format delimited  
fields terminated by ',' ;  

现在，将虚拟表的数据插入到bucketing表中。

在这里，我们可以看到数据被分成三个桶。

让我们检索桶0的数据。

根据哈希函数
6%3=0
3%3=0
因此，这些列存储在桶0中。

让我们检索桶1的数据。

根据哈希函数
7%3=1
4%3=1
1%3=1
因此，这些列存储在桶1中。

让我们检索桶2的数据。

根据哈希函数
8%3=2
5%3=2
2%3=2
因此，这些列存储在桶2中。

下一主题HiveQL - 运算符

Hive 中的 Bucketing

Hive中Bucketing的工作原理

Hive中Bucketing的示例

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Hadoop 教程

Hadoop 模块

Hadoop - MapReduce

HBase

Hive 教程

Pig

Sqoop

Spark 教程

其他

面试题

Hive 中的 Bucketing

Hive中Bucketing的工作原理

Hive中Bucketing的示例

相关帖子

Hive 安装

Hive Sort By vs Order By

HiveQL - Join

Hive 数据类型

Hive 教程

Hive Join

动态分区

修改表

Hive 架构

删除数据库

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器