HDFS 的特性和目标

2024 年 8 月 28 日 | 阅读 2 分钟

Hadoop 分布式文件系统 (HDFS) 是一种分布式文件系统。它是 Hadoop 的核心部分,用于数据存储。它被设计为运行在廉价硬件上。

与其他分布式文件系统不同,HDFS 具有很高的容错性,并且可以部署在低成本硬件上。 它可以轻松处理包含大型数据集的应用程序。

让我们看看 HDFS 的一些重要特性和目标。

HDFS 的特性

  • 高度可扩展 - HDFS 具有高度可扩展性,因为它可以在单个群集中扩展数百个节点。
  • 复制 - 由于某些不利条件,包含数据的节点可能会丢失。 因此,为了克服这些问题,HDFS 始终在不同的机器上维护数据的副本。
  • 容错性 - 在 HDFS 中,容错性表示系统在发生故障时的鲁棒性。 HDFS 具有高度的容错性,如果任何机器发生故障,包含该数据副本的其他机器会自动变为活动状态。
  • 分布式数据存储 - 这是 HDFS 最重要的特性之一,它使 Hadoop 非常强大。 在这里,数据被分成多个块并存储到节点中。
  • 可移植 - HDFS 的设计方式使其可以轻松地从一个平台移植到另一个平台。

HDFS 的目标

  • 处理硬件故障 - HDFS 包含多台服务器机器。 无论如何,如果任何机器发生故障,HDFS 的目标是快速恢复它。
  • 流式数据访问 - HDFS 应用程序通常在通用文件系统上运行。 此应用程序需要对其数据集进行流式访问。
  • 一致性模型 - 在 HDFS 上运行的应用程序需要遵循一次写入多次读取的方法。 因此,一旦创建的文件无需更改。 但是,可以追加和截断它。
下一个主题Yarn