Azure Purview SDK for Python

2025年3月7日 | 阅读 5 分钟

在本文中,我们将探讨名为 Azure Purview SDK for Python 的 Azure 服务。

简介

数据是新的石油。在 大数据 的世界里,管理、治理和分析哪些数据对决策至关重要。Azure Purview 最初名为 Azure Data Governance,是微软推出的统一数据治理服务,旨在管理本地、多云和 SaaS 环境中的数据。

由于 Azure Purview 将其操作暴露为 REST API,微软提供了用于 Python 的 SDK,以便与 Azure Purview 进行程序化交互。对于希望实现自动化数据治理解决方案、数据扫描和分类解决方案以及提供组织数据组合洞察的解决方案的开发团队来说,这个 SDK 是宝贵的资产。

什么是 Azure Purview?

Azure Purview 提供了一个统一的数据管理解决方案,帮助组织管理本地或云端,甚至 SaaS 解决方案中的数据资产。它的一些核心功能包括:

  1. 数据发现: 自动扫描数据源以识别、注册和编目数据资产。
  2. 数据分类: 识别结构化和非结构化数据中敏感和业务关键信息的某些区域。
  3. 数据沿袭: 跟踪数据流的不同形式及其变化。
  4. 数据治理: 确保个人数据得到负责任的处理,并符合内部和外部策略。

通过将所有这些功能集成到一个平台中,Azure Purview 为数据管理员和治理团队提供了对其组织数据资产整体视图的帮助。

为什么使用 Azure Purview SDK for Python?

虽然 Azure Purview 提供了强大的 Web 界面,但 Python SDK 允许开发人员:

  1. 自动化常规任务,如扫描数据源或获取元数据。
  2. 通过编写脚本实现自定义数据治理工作流来扩展功能。
  3. 将 Purview 与其他服务和第三方系统集成。
  4. 通过程序化地管理大型数据集和多个数据源来扩展操作。

该 SDK 提供了一种程序化方式来与 Azure Purview 的 API 进行交互,使高级用户能够更有效地自定义其数据治理流程。

设置 Azure Purview SDK for Python

前提条件

  1. Python 环境: 确保已安装 Python 3.6 或更高版本。
  2. Azure 订阅: 要执行以下步骤,我们需要访问 Azure 和一个有效的 Azure Purview 帐户。
  3. Azure Purview 帐户: 可以通过 Azure 门户进行设置。

安装

要安装 Azure Purview SDK for Python,我们可以使用 pip。

我们可能还需要安装其他依赖项来进行身份验证。

认证

为了进行身份验证,我们可以使用 Azure 的 `azure-identity` 包中的 `DefaultAzureCredential`,它将尝试多种身份验证方法,例如环境变量、托管标识和 Azure CLI。

在 Python 中实现 Azure Purview SDK

在以下部分,我们将通过一个基本示例讨论如何使用 Python 实现 Azure Purview SDK。

示例

输出

 
Assets found:
Asset Name: employees, Asset Type: Table
Asset Name: database_01, Asset Type: Database
Asset Name: salary_file, Asset Type: File
...   

Azure Purview SDK for Python 的主要功能

  1. 目录管理: 该 SDK 允许我们管理数据目录,使我们能够创建、更新和检索资产(如数据库、表和文件)的元数据。
  2. 扫描数据源: 我们可以自动化扫描多个数据源以获取元数据的过程,这是维护有关数据环境的最新信息的一项关键功能。
  3. 数据沿袭跟踪: Azure Purview 有助于跟踪数据的去向,以便它可以到达当前所在的特定系统。SDK 使得能够以编程方式检索沿袭信息。
  4. 分类和标签: 数据分类和标记是 Azure 功能的另一个优势,因为它使人们能够识别敏感数据。借助 SDK,可以将分类或业务术语直接连接到特定资产。
  5. 自定义元数据: Azure Purview 允许用户为其资产添加自定义元数据。这对于组织数据或应用自定义业务逻辑非常有用。

使用 Azure Purview SDK 的最佳实践

  1. 自动化常规任务: 使用 SDK 自动化任务,例如扫描新数据源、更新元数据或根据业务规则应用分类。这减少了手动工作,并确保我们的数据目录保持最新。
  2. 与 CI/CD 流水线集成: 通过将 SDK 与我们的 CI/CD 流水线集成,我们可以在每次向我们的生态系统添加新数据时,自动扫描新数据源或更新数据沿袭信息。
  3. 监控和警报: 使用 SDK 设置监控和警报,以便在扫描失败或在意外位置发现特定敏感信息时通知我们的团队。
  4. 强制执行数据治理策略: 构建脚本以在组织的整个数据资产中强制执行治理策略。例如,我们可以使用 SDK 根据预定义规则自动将某些分类应用于新资产。

结论

借助这款用于 Python 的 Azure Purview SDK 工具,我们可以轻松自动化和扩展我们的数据治理工作流。通过以编程方式与目录管理、数据分类和沿袭跟踪等 Purview 功能进行交互,组织可以精简其数据治理流程并确保遵守法规。

无论我们是数据工程师、架构师还是治理官,掌握 Azure Purview SDK 都将使我们能够更有效、更高效地管理数据。随着数据复杂性和数量的不断增长,像这样的工具将成为维护秩序和从我们的数据资产中提取价值不可或缺的工具。