Spark 组件17 Mar 2025 | 阅读 2 分钟 Spark 项目由不同类型的紧密集成的组件组成。 在其核心,Spark 是一个计算引擎,可以调度、分配和监控多个应用程序。 让我们详细了解每个 Spark 组件。  Spark Core- Spark Core 是 Spark 的核心,执行核心功能。
- 它包含任务调度、故障恢复、与存储系统交互和内存管理的组件。
Spark SQL- Spark SQL 构建在 Spark Core 之上。 它提供对结构化数据的支持。
- 它允许通过 SQL(结构化查询语言)以及 SQL 的 Apache Hive 变体(称为 HQL(Hive 查询语言))来查询数据。
- 它支持 JDBC 和 ODBC 连接,这些连接在 Java 对象和现有数据库、数据仓库和商业智能工具之间建立关系。
- 它还支持各种数据源,如 Hive 表、Parquet 和 JSON。
Spark Streaming- Spark Streaming 是一个 Spark 组件,支持流数据的可扩展和容错处理。
- 它使用 Spark Core 的快速调度功能来执行流分析。
- 它接受小批量数据,并对这些数据执行 RDD 转换。
- 它的设计确保为流数据编写的应用程序可以重复使用,只需稍作修改即可分析历史数据的批次。
- Web 服务器生成的日志文件可以被认为是数据流的实时示例。
MLlib- MLlib 是一个机器学习库,包含各种机器学习算法。
- 这些包括相关性和假设检验、分类和回归、聚类和主成分分析。
- 它比 Apache Mahout 使用的基于磁盘的实现快九倍。
GraphX- GraphX 是一个用于操作图和执行图并行计算的库。
- 它有助于创建有向图,每个顶点和边都附加了任意属性。
- 为了操作图,它支持各种基本运算符,如子图、连接顶点和聚合消息。
|