什么是 Databrick?

17 Mar 2025 | 6 分钟阅读

本文旨在为新手提供 Azure Databricks 的全面介绍。我们将学习 Databricks 在 Azure 中的基础知识,以及如何通过 Azure 门户创建它,以及随之而来的不同组件和内部结构。

系统处理的数据量达到 PB 甚至 EB,并且仍在呈指数级增长。大数据无处不在,来自社交媒体、销售、客户数据、交易数据等各种来源。在我看来,这些数据只有在我们可以对其进行交互式和快速处理时才具有价值。

Apache Spark 是一个流行的大数据分析框架,它是一个开源的、快速的集群计算系统。该框架通过并行处理数据来提高性能。它使用 Scala 编写,这是一种高级编程语言,同时也支持 Python、SQL、Java 和 R API。

什么是 Azure Databricks,它与 Spark 有什么关系?

简单地说,Databricks 是 Microsoft AzureApache Spark 的实现。它使用完全托管的 Spark 集群来处理大数据工作负载,并利用机器学习帮助进行数据工程、数据探索和数据可视化。

在处理 Databricks 时,我发现这个分析平台非常适合开发者且适应性强,并且拥有易于使用的 API,如 PythonR 等。为了进一步说明,想象一下我们用 Python 构建了一个数据框。

Databricks 的使用案例?

Databricks 的采用率日益增长,在大数据领域变得越来越重要和相关,这有很多原因。除了支持多种语言外,该服务还允许我们与各种 Azure 服务(如 Blob 存储、数据湖存储、SQL 数据库)以及 BI 工具(如 Power BITableau)进行快速交互。

它是一个出色的协作平台,允许数据专业人员共享集群和工作区,从而提高生产力。

Azure Databricks 的一些非常重要的功能是 -

  • Databricks Workspace - 它拥有一个非常有用的协作工作区功能,不同的人可以在其中同时工作。
  • Databricks Runtime - 它们是额外的组件和升级集合,包括 Apache Spark,可为大数据工作负载和分析带来性能和安全方面的好处。这些更新会定期进行。
  • 如前所述,它与其他服务(如 Azure、Apache Kafka 和 Hadoop 存储)紧密集成,使我们能够将数据发布到机器学习、流分析、Power BI 和其他应用程序。
  • Databricks File System (DBFS) - 这是对象存储之上的一个抽象层。这使我们能够挂载 Azure Blob 存储等存储项目,使我们能够像访问本地文件系统一样访问数据。

创建 Azure Databricks 服务

与任何其他 Azure 资源一样,创建 Databricks 需要 Azure 订阅。我们可以通过访问 Azure 网站获得免费试用订阅。

登录 Azure 门户,在“**创建资源**”框中搜索 **databricks**

What is Databrick

如下所示,单击“创建”按钮

What is Databrick

我们将被导向下一个屏幕。我们需要输入以下信息

  • 订阅 - 选择我们拥有的计划。
  • 资源组 - 我们正在使用我们已经创建的 Azure 组(azsqlshackrg)。可以根据需要创建自己的。
  • 工作区名称 - 我们想为我们的 databrick(azdatabricks)指定的名称。
  • 位置 - 东部美国(它基本上是我们希望部署服务的地方,最初它不会产生任何影响,但对于高级层和大型企业来说,它有很大的影响,稍后将详细讨论。)
  • 定价层 - 高级(我们选择高级订阅)。
  • 现在我们需要单击“**审阅 + 创建**”按钮,这是创建集群的最后一步,在审阅部分,它将最终显示我们迄今为止所做的所有设置。

然后单击“**创建**”按钮来创建此服务

What is Databrick

创建完成后,转到通知选项卡,选择“转到资源”以打开我们刚刚创建的服务

What is Databrick

在门户上,我们可以看到有关我们的 databricks 服务的信息,例如 URL、价格详情等。

要访问 Azure Databricks 站点,请单击“启动工作区”,这是我们将创建集群的地方

What is Databrick

要使用 Databricks Workspace,我们需要再次登录。

下面屏幕截图显示了 Databricks 门户的 Databricks 主页。我们可以在“工作区”选项卡中创建笔记本并管理我们的文档。我们可以使用下面的“数据”选项卡创建表和数据库。

我们还可以使用 CassandraKafkaAzure Blob Storage 等数据源。在垂直选项列表中,选择“集群”

What is Databrick

现在,在这里创建一个 Spark 集群,有关更多详细信息,请参阅下图。Databricks 在完全托管的 Apache Spark 环境中开发。并且它们具有非常特殊的自动缩放功能,该功能完全基于业务需求。在“集群”页面上,滚动到页面底部,然后单击“创建集群”

What is Databrick

下图显示了创建新 databricks 集群的几个设置选项。我用于创建集群的设置是 -

  • 5.5 运行时(一个数据处理引擎)。
  • Python 2。
  • 对于低工作负载,配置了标准 F4s 系列。

我没有启用自动缩放,因为这是一个演示,而且我也没有激活在集群不活动 120 分钟后终止集群的选项。

最后,在“**新集群**”页面上,单击“**创建集群**”按钮来启动它

What is Databrick

基本上,我们可以根据自己的喜好设置集群。在此 Microsoft 参考页面上,详细介绍了包括高级选项在内的许多集群配置。

下图显示集群的状态为“正在挂起”。由于它正在云基础架构中创建,因此仍需要一些时间才能创建。

What is Databrick

哇!我们已成功创建了一个正在运行的集群。

What is Databrick

Databricks 默认是一个完全托管的服务,这意味着集群的资源被部署到一个锁定的资源组 databricks-rg-azdatabricks-3...,如下面的图所示,为 Databricks 服务生成了 azdatabricks、VM、磁盘和其他网络相关服务。

What is Databrick

在预定义的资源组中,我们还会看到已部署了一个专用的存储帐户。

What is Databrick

在 Spark 集群中创建笔记本

在 Spark 集群中,笔记本是一个基于 Web 的界面,允许我们在各种语言中运行代码和可视化。

集群启动并运行后,我们可以创建笔记本并运行 Spark 作业。

现在,我们必须单击左侧垂直菜单栏的“**工作区**”选项卡下的“**创建**”按钮,然后单击“**选择笔记本**”选项。供参考,请参阅下图。

What is Databrick

现在我们需要为笔记本指定一个名称,我们必须始终给出正确的名称,以便任何处理它的人都能仅通过阅读其名称就能正确理解笔记本。现在我们必须在“创建笔记本”对话框中选择一种语言,如 Python、Scala、SQL、R,以及集群名称,然后单击“创建”按钮。这将在我们刚刚创建的 Spark 集群中添加一个笔记本。

What is Databrick

我将在那里结束这个话题,因为我将在下一篇文章中介绍 Databricks 笔记本的其他方面。

结论

在这里,我们已尽力以最易懂的方式解释了 Azure Databricks 的基础知识。我们尽力以最简单的方式创建了一个集群。本教程旨在帮助新手学习 Azure Databricks 的基础知识。


下一个主题PowerShell 的用途