Spark 组件

17 Mar 2025 | 阅读 2 分钟

Spark 项目由不同类型的紧密集成的组件组成。 在其核心,Spark 是一个计算引擎,可以调度、分配和监控多个应用程序。

让我们详细了解每个 Spark 组件。

Spark Components

Spark Core

  • Spark Core 是 Spark 的核心,执行核心功能。
  • 它包含任务调度、故障恢复、与存储系统交互和内存管理的组件。

Spark SQL

  • Spark SQL 构建在 Spark Core 之上。 它提供对结构化数据的支持。
  • 它允许通过 SQL(结构化查询语言)以及 SQL 的 Apache Hive 变体(称为 HQL(Hive 查询语言))来查询数据。
  • 它支持 JDBC 和 ODBC 连接,这些连接在 Java 对象和现有数据库、数据仓库和商业智能工具之间建立关系。
  • 它还支持各种数据源,如 Hive 表、Parquet 和 JSON。

Spark Streaming

  • Spark Streaming 是一个 Spark 组件,支持流数据的可扩展和容错处理。
  • 它使用 Spark Core 的快速调度功能来执行流分析。
  • 它接受小批量数据,并对这些数据执行 RDD 转换。
  • 它的设计确保为流数据编写的应用程序可以重复使用,只需稍作修改即可分析历史数据的批次。
  • Web 服务器生成的日志文件可以被认为是数据流的实时示例。

MLlib

  • MLlib 是一个机器学习库,包含各种机器学习算法。
  • 这些包括相关性和假设检验、分类和回归、聚类和主成分分析。
  • 它比 Apache Mahout 使用的基于磁盘的实现快九倍。

GraphX

  • GraphX 是一个用于操作图和执行图并行计算的库。
  • 它有助于创建有向图,每个顶点和边都附加了任意属性。
  • 为了操作图,它支持各种基本运算符,如子图、连接顶点和聚合消息。

下一个主题什么是 RDD