什么是 HBase

2024 年 8 月 28 日 | 阅读 2 分钟

Hbase 是一个基于 Hadoop 构建的开源、排序的 Map 数据。 它是面向列的并且可以水平扩展。

它基于 Google 的 Big Table。它有一组以键值格式保存数据的表。 Hbase 非常适合大数据用例中非常常见的稀疏数据集。 Hbase 提供了 API,支持实际上任何编程语言的开发。 它是 Hadoop 生态系统的一部分,提供对 Hadoop 文件系统中数据的随机实时读/写访问。

为什么选择 HBase

  • 随着数据量的增大,RDBMS 的速度会呈指数级下降
  • 期望数据具有高度结构化,即能够适应良好定义的模式
  • 模式的任何更改都可能需要停机
  • 对于稀疏数据集,维护 NULL 值的开销太大

Hbase 的特点

  • 水平可扩展:您可以随时添加任意数量的列。
  • 自动故障转移:自动故障转移是一种资源,允许系统管理员在系统遭到破坏时自动将数据处理切换到备用系统
  • 与 Map/Reduce 框架集成:所有命令和 Java 代码都在内部实现 Map/Reduce 来完成任务,并且它构建在 Hadoop 分布式文件系统之上。
  • 稀疏的、分布式的、持久的、多维的排序映射,由 rowkey、列键和时间戳索引。
  • 通常被称为键值存储或面向列族的数据库,或存储版本化的映射映射。
  • 从根本上说,它是一个用于存储和检索具有随机访问权限的数据的平台。
  • 它不关心数据类型(在一行中存储整数,而在同一列的另一行中存储字符串)。
  • 它不会强制执行数据中的关系。
  • 它旨在运行在使用商品硬件构建的计算机集群上。
下一个主题HBase 数据模型