什么是 Databrick?

17 Mar 2025 | 6 分钟阅读

本文旨在为新手提供 Azure Databricks 的全面介绍。我们将学习 Databricks 在 Azure 中的基础知识，以及如何通过 Azure 门户创建它，以及随之而来的不同组件和内部结构。

系统处理的数据量达到 PB 甚至 EB，并且仍在呈指数级增长。大数据无处不在，来自社交媒体、销售、客户数据、交易数据等各种来源。在我看来，这些数据只有在我们可以对其进行交互式和快速处理时才具有价值。

Apache Spark 是一个流行的大数据分析框架，它是一个开源的、快速的集群计算系统。该框架通过并行处理数据来提高性能。它使用 Scala 编写，这是一种高级编程语言，同时也支持 Python、SQL、Java 和 R API。

什么是 Azure Databricks，它与 Spark 有什么关系？

简单地说，Databricks 是 Microsoft Azure 对 Apache Spark 的实现。它使用完全托管的 Spark 集群来处理大数据工作负载，并利用机器学习帮助进行数据工程、数据探索和数据可视化。

在处理 Databricks 时，我发现这个分析平台非常适合开发者且适应性强，并且拥有易于使用的 API，如 Python、R 等。为了进一步说明，想象一下我们用 Python 构建了一个数据框。

Databricks 的使用案例？

Databricks 的采用率日益增长，在大数据领域变得越来越重要和相关，这有很多原因。除了支持多种语言外，该服务还允许我们与各种 Azure 服务（如 Blob 存储、数据湖存储、SQL 数据库）以及 BI 工具（如 Power BI 和 Tableau）进行快速交互。

它是一个出色的协作平台，允许数据专业人员共享集群和工作区，从而提高生产力。

Azure Databricks 的一些非常重要的功能是 -

Databricks Workspace - 它拥有一个非常有用的协作工作区功能，不同的人可以在其中同时工作。
Databricks Runtime - 它们是额外的组件和升级集合，包括 Apache Spark，可为大数据工作负载和分析带来性能和安全方面的好处。这些更新会定期进行。
如前所述，它与其他服务（如 Azure、Apache Kafka 和 Hadoop 存储）紧密集成，使我们能够将数据发布到机器学习、流分析、Power BI 和其他应用程序。
Databricks File System (DBFS) - 这是对象存储之上的一个抽象层。这使我们能够挂载 Azure Blob 存储等存储项目，使我们能够像访问本地文件系统一样访问数据。

创建 Azure Databricks 服务

与任何其他 Azure 资源一样，创建 Databricks 需要 Azure 订阅。我们可以通过访问 Azure 网站获得免费试用订阅。

如下所示，单击“创建”按钮

我们将被导向下一个屏幕。我们需要输入以下信息

订阅 - 选择我们拥有的计划。
资源组 - 我们正在使用我们已经创建的 Azure 组（azsqlshackrg）。可以根据需要创建自己的。
工作区名称 - 我们想为我们的 databrick（azdatabricks）指定的名称。
位置 - 东部美国（它基本上是我们希望部署服务的地方，最初它不会产生任何影响，但对于高级层和大型企业来说，它有很大的影响，稍后将详细讨论。）
定价层 - 高级（我们选择高级订阅）。
现在我们需要单击“**审阅 + 创建**”按钮，这是创建集群的最后一步，在审阅部分，它将最终显示我们迄今为止所做的所有设置。

然后单击“**创建**”按钮来创建此服务

创建完成后，转到通知选项卡，选择“转到资源”以打开我们刚刚创建的服务

在门户上，我们可以看到有关我们的 databricks 服务的信息，例如 URL、价格详情等。

要访问 Azure Databricks 站点，请单击“启动工作区”，这是我们将创建集群的地方

要使用 Databricks Workspace，我们需要再次登录。

下面屏幕截图显示了 Databricks 门户的 Databricks 主页。我们可以在“工作区”选项卡中创建笔记本并管理我们的文档。我们可以使用下面的“数据”选项卡创建表和数据库。

我们还可以使用 Cassandra、Kafka、Azure Blob Storage 等数据源。在垂直选项列表中，选择“集群”

现在，在这里创建一个 Spark 集群，有关更多详细信息，请参阅下图。Databricks 在完全托管的 Apache Spark 环境中开发。并且它们具有非常特殊的自动缩放功能，该功能完全基于业务需求。在“集群”页面上，滚动到页面底部，然后单击“创建集群”

下图显示了创建新 databricks 集群的几个设置选项。我用于创建集群的设置是 -

5.5 运行时（一个数据处理引擎）。
Python 2。
对于低工作负载，配置了标准 F4s 系列。

我没有启用自动缩放，因为这是一个演示，而且我也没有激活在集群不活动 120 分钟后终止集群的选项。

最后，在“**新集群**”页面上，单击“**创建集群**”按钮来启动它

基本上，我们可以根据自己的喜好设置集群。在此 Microsoft 参考页面上，详细介绍了包括高级选项在内的许多集群配置。

下图显示集群的状态为“正在挂起”。由于它正在云基础架构中创建，因此仍需要一些时间才能创建。

哇！我们已成功创建了一个正在运行的集群。

Databricks 默认是一个完全托管的服务，这意味着集群的资源被部署到一个锁定的资源组 databricks-rg-azdatabricks-3...，如下面的图所示，为 Databricks 服务生成了 azdatabricks、VM、磁盘和其他网络相关服务。

在预定义的资源组中，我们还会看到已部署了一个专用的存储帐户。

在 Spark 集群中创建笔记本

在 Spark 集群中，笔记本是一个基于 Web 的界面，允许我们在各种语言中运行代码和可视化。

集群启动并运行后，我们可以创建笔记本并运行 Spark 作业。

现在，我们必须单击左侧垂直菜单栏的“**工作区**”选项卡下的“**创建**”按钮，然后单击“**选择笔记本**”选项。供参考，请参阅下图。

现在我们需要为笔记本指定一个名称，我们必须始终给出正确的名称，以便任何处理它的人都能仅通过阅读其名称就能正确理解笔记本。现在我们必须在“创建笔记本”对话框中选择一种语言，如 Python、Scala、SQL、R，以及集群名称，然后单击“创建”按钮。这将在我们刚刚创建的 Spark 集群中添加一个笔记本。

我将在那里结束这个话题，因为我将在下一篇文章中介绍 Databricks 笔记本的其他方面。

结论

在这里，我们已尽力以最易懂的方式解释了 Azure Databricks 的基础知识。我们尽力以最简单的方式创建了一个集群。本教程旨在帮助新手学习 Azure Databricks 的基础知识。

下一个主题PowerShell 的用途

← 上一个下一个 →

什么是 Databrick?

什么是 Azure Databricks，它与 Spark 有什么关系？

Databricks 的使用案例？

创建 Azure Databricks 服务

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Microsoft Azure 教程

Azure 存储服务

网络服务

计算服务

应用服务

数据库服务

Azure DevOps

其他

面试题

什么是 Databrick?

什么是 Azure Databricks，它与 Spark 有什么关系？

Databricks 的使用案例？

创建 Azure Databricks 服务

结论

相关帖子

Azure 数据工厂和 Databricks

Azure DevOps Server 和 Azure DevOps Services 之间的区别

为什么使用 PowerShell

Microsoft Azure 组件

什么是 Azure 中 Active Directory 域服务的特权访问管理

Azure Logic Apps 与函数

什么是 Azure 资源管理器

Azure SQL 数据库与托管实例

什么是 Ms Azure 中的笔记本

什么是 MS Azure 函数

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器