什么是 Databrick?17 Mar 2025 | 6 分钟阅读 本文旨在为新手提供 Azure Databricks 的全面介绍。我们将学习 Databricks 在 Azure 中的基础知识,以及如何通过 Azure 门户创建它,以及随之而来的不同组件和内部结构。 系统处理的数据量达到 PB 甚至 EB,并且仍在呈指数级增长。大数据无处不在,来自社交媒体、销售、客户数据、交易数据等各种来源。在我看来,这些数据只有在我们可以对其进行交互式和快速处理时才具有价值。 Apache Spark 是一个流行的大数据分析框架,它是一个开源的、快速的集群计算系统。该框架通过并行处理数据来提高性能。它使用 Scala 编写,这是一种高级编程语言,同时也支持 Python、SQL、Java 和 R API。 什么是 Azure Databricks,它与 Spark 有什么关系?简单地说,Databricks 是 Microsoft Azure 对 Apache Spark 的实现。它使用完全托管的 Spark 集群来处理大数据工作负载,并利用机器学习帮助进行数据工程、数据探索和数据可视化。 在处理 Databricks 时,我发现这个分析平台非常适合开发者且适应性强,并且拥有易于使用的 API,如 Python、R 等。为了进一步说明,想象一下我们用 Python 构建了一个数据框。 Databricks 的使用案例?Databricks 的采用率日益增长,在大数据领域变得越来越重要和相关,这有很多原因。除了支持多种语言外,该服务还允许我们与各种 Azure 服务(如 Blob 存储、数据湖存储、SQL 数据库)以及 BI 工具(如 Power BI 和 Tableau)进行快速交互。 它是一个出色的协作平台,允许数据专业人员共享集群和工作区,从而提高生产力。 Azure Databricks 的一些非常重要的功能是 -
创建 Azure Databricks 服务与任何其他 Azure 资源一样,创建 Databricks 需要 Azure 订阅。我们可以通过访问 Azure 网站获得免费试用订阅。 登录 Azure 门户,在“**创建资源**”框中搜索 **databricks** ![]() 如下所示,单击“创建”按钮 ![]() 我们将被导向下一个屏幕。我们需要输入以下信息
然后单击“**创建**”按钮来创建此服务 ![]() 创建完成后,转到通知选项卡,选择“转到资源”以打开我们刚刚创建的服务 ![]() 在门户上,我们可以看到有关我们的 databricks 服务的信息,例如 URL、价格详情等。 要访问 Azure Databricks 站点,请单击“启动工作区”,这是我们将创建集群的地方 ![]() 要使用 Databricks Workspace,我们需要再次登录。 下面屏幕截图显示了 Databricks 门户的 Databricks 主页。我们可以在“工作区”选项卡中创建笔记本并管理我们的文档。我们可以使用下面的“数据”选项卡创建表和数据库。 我们还可以使用 Cassandra、Kafka、Azure Blob Storage 等数据源。在垂直选项列表中,选择“集群” ![]() 现在,在这里创建一个 Spark 集群,有关更多详细信息,请参阅下图。Databricks 在完全托管的 Apache Spark 环境中开发。并且它们具有非常特殊的自动缩放功能,该功能完全基于业务需求。在“集群”页面上,滚动到页面底部,然后单击“创建集群” ![]() 下图显示了创建新 databricks 集群的几个设置选项。我用于创建集群的设置是 -
我没有启用自动缩放,因为这是一个演示,而且我也没有激活在集群不活动 120 分钟后终止集群的选项。 最后,在“**新集群**”页面上,单击“**创建集群**”按钮来启动它 ![]() 基本上,我们可以根据自己的喜好设置集群。在此 Microsoft 参考页面上,详细介绍了包括高级选项在内的许多集群配置。 下图显示集群的状态为“正在挂起”。由于它正在云基础架构中创建,因此仍需要一些时间才能创建。 ![]() 哇!我们已成功创建了一个正在运行的集群。 ![]() Databricks 默认是一个完全托管的服务,这意味着集群的资源被部署到一个锁定的资源组 databricks-rg-azdatabricks-3...,如下面的图所示,为 Databricks 服务生成了 azdatabricks、VM、磁盘和其他网络相关服务。 ![]() 在预定义的资源组中,我们还会看到已部署了一个专用的存储帐户。 ![]() 在 Spark 集群中创建笔记本 在 Spark 集群中,笔记本是一个基于 Web 的界面,允许我们在各种语言中运行代码和可视化。 集群启动并运行后,我们可以创建笔记本并运行 Spark 作业。 现在,我们必须单击左侧垂直菜单栏的“**工作区**”选项卡下的“**创建**”按钮,然后单击“**选择笔记本**”选项。供参考,请参阅下图。 ![]() 现在我们需要为笔记本指定一个名称,我们必须始终给出正确的名称,以便任何处理它的人都能仅通过阅读其名称就能正确理解笔记本。现在我们必须在“创建笔记本”对话框中选择一种语言,如 Python、Scala、SQL、R,以及集群名称,然后单击“创建”按钮。这将在我们刚刚创建的 Spark 集群中添加一个笔记本。 ![]() 我将在那里结束这个话题,因为我将在下一篇文章中介绍 Databricks 笔记本的其他方面。 结论在这里,我们已尽力以最易懂的方式解释了 Azure Databricks 的基础知识。我们尽力以最简单的方式创建了一个集群。本教程旨在帮助新手学习 Azure Databricks 的基础知识。 下一个主题PowerShell 的用途 |
我们请求您订阅我们的新闻通讯以获取最新更新。