下一篇 → ← 上一篇

Spark 组件

17 Mar 2025 | 阅读 2 分钟

Spark 项目由不同类型的紧密集成的组件组成。在其核心，Spark 是一个计算引擎，可以调度、分配和监控多个应用程序。

让我们详细了解每个 Spark 组件。

Spark Components

Spark Core

Spark Core 是 Spark 的核心，执行核心功能。
它包含任务调度、故障恢复、与存储系统交互和内存管理的组件。

Spark SQL

Spark SQL 构建在 Spark Core 之上。它提供对结构化数据的支持。
它允许通过 SQL（结构化查询语言）以及 SQL 的 Apache Hive 变体（称为 HQL（Hive 查询语言））来查询数据。
它支持 JDBC 和 ODBC 连接，这些连接在 Java 对象和现有数据库、数据仓库和商业智能工具之间建立关系。
它还支持各种数据源，如 Hive 表、Parquet 和 JSON。

Spark Streaming

Spark Streaming 是一个 Spark 组件，支持流数据的可扩展和容错处理。
它使用 Spark Core 的快速调度功能来执行流分析。
它接受小批量数据，并对这些数据执行 RDD 转换。
它的设计确保为流数据编写的应用程序可以重复使用，只需稍作修改即可分析历史数据的批次。
Web 服务器生成的日志文件可以被认为是数据流的实时示例。

MLlib

MLlib 是一个机器学习库，包含各种机器学习算法。
这些包括相关性和假设检验、分类和回归、聚类和主成分分析。
它比 Apache Mahout 使用的基于磁盘的实现快九倍。

GraphX

GraphX 是一个用于操作图和执行图并行计算的库。
它有助于创建有向图，每个顶点和边都附加了任意属性。
为了操作图，它支持各种基本运算符，如子图、连接顶点和聚合消息。

下一个主题什么是 RDD

← 上一篇下一篇 →

相关帖子

我们提供所有技术（如 Java 教程、Android、Java 框架）的教程和面试问题

联系信息

G-13, 2nd Floor, Sec-3, Noida, UP, 201301, India

hr@tpointtech.com

关注我们

教程

Java 数据结构 C 语言 C++ 教程 C# 教程 PHP 教程 HTML 教程 JavaScript 教程 jQuery 教程 Spring 教程

面试题

Microsoft Amazon Adobe Intuit Accenture Cognizant Capgemini Wipro Tcs Infosys

在线编译器

C R C++ Php Java Html Swift Python JavaScript TypeScript

最新帖子 | 教程列表 | 隐私政策 | 关于我们 | 联系我们

© 版权所有 2011 - 2025 TpointTech.com。保留所有权利。