Apache Airflow 包额外功能9 Jun 2025 | 9分钟阅读 引言Apache Airflow Extras 是扩展 Airflow 功能的附加依赖项,允许与各种第三方服务、数据库、云提供商和其他工具集成。这些 Extras 帮助用户避免安装不必要的依赖项,同时提供只选择所需功能的灵活性。 这些 Extras 提供了额外的功能,这些功能不一定与特定的提供商或核心功能绑定。 示例
这些额外的 Airflow Extras 提供的功能不直接与特定提供商(例如,云服务)或核心功能(例如,身份验证、日志记录)绑定。相反,它们扩展了 Airflow 的监控、消息传递、身份验证和数据沿袭跟踪功能。 以下是其他 Airflow Extras 的详细 breakdown: 监控与可观测性airflow[statsd] – StatsD 监控 StatsD 是一个用于监控应用程序的指标收集和聚合系统。此 Extra 使 Airflow 能够
用例:对于需要对其 Airflow 环境进行实时监控的组织很有用。 安装 消息代理与缓存airflow[redis] – Redis 支持 Redis 是一个内存键值存储,通常用于缓存、消息代理和实时分析。此 Extra 允许 Airflow
用例:推荐用于使用CeleryExecutor 的大型 Airflow 部署。 安装 数据沿袭与跟踪airflow[openlineage] – OpenLineage 跟踪 OpenLineage 是一个用于数据沿袭跟踪的开放框架,允许用户跨不同系统跟踪数据移动。此 Extra 使 Airflow 能够
用例:对于数据治理和合规性至关重要,有助于团队了解数据如何在管道中流动。 安装 消息传递与通知airflow[telegram] – Telegram 通知 此 Extra 允许 Airflow 通过Telegram(一个流行的消息应用程序)发送实时警报和通知。它提供了
用例:在管理 DAG 执行时,对于团队协作和监控很有用。 安装 身份验证与安全airflow[google_auth] – Google 身份验证 此 Extra 启用了 AirflowWeb UI 的Google OAuth 身份验证,允许用户
用例:推荐给使用Google Workspace(Gmail、Google Cloud Identity 或 GCP IAM)的组织。 安装 如何一次安装多个 Extras您可以在一个命令中安装多个 extras 这些其他 Airflow Extras 有助于增强监控、消息代理、安全和数据跟踪,使 Airflow 成为一个更可伸缩和可观测的编排工具。 生产环境包 Extras对于生产环境,这些 Extras 提供了在健壮且可伸缩的环境中运行 Airflow 所需的关键依赖项。 示例
对于生产部署,Apache Airflow 提供了一套关键 Extras,其中包括运行 Airflow 所需的依赖项,以实现可伸缩性、可靠性和性能。这些 Extras 有助于配置数据库后端、消息系统、开发工具和完整的包安装。 以下是生产环境包 Extras 的详细 breakdown: 开发与测试airflow[devel] – 开发工具 此 Extra 安装了Airflow 开发、测试和调试所需的各种工具。它包括
用例:推荐给正在为Airflow 核心或自定义插件做贡献的开发人员。 安装 生产就绪的数据库与消息集成airflow[postgres,Cassandra,hive,kafka] – 组合生产依赖项 此 Extra 安装了多个生产就绪的集成,这些集成在企业数据工作流中很常用:
用例:推荐给与大数据平台和流式系统交互的企业部署。 安装 全包(不推荐用于生产环境)airflow[all] – 安装所有可用的依赖项 此 Extra 安装了所有可用的 Airflow 依赖项,包括
警告:不推荐用于生产环境,因为
用例:适用于需要访问 Airflow所有功能的测试环境。 安装 如何一次安装多个生产环境 Extras要安装一个生产就绪的包,仅包含必要的依赖项,请使用 这些生产环境包 Extras 确保 Airflow 配置为可伸缩性、高可用性和性能,使其适合企业级部署。 开发 Extras开发 Extras 对正在开发 Airflow 本身或构建自定义插件的开发人员很有用。 示例
开发 Extras 旨在帮助开发人员处理Airflow 本身或创建自定义插件。这些 Extras 包括用于持续集成 (CI/CD)、测试、linting、类型检查和Hadoop 开发的工具,确保 Airflow 开发高效、可维护并符合编码标准。 以下是开发 Extras 的详细 breakdown: CI/CD 工具此 Extra 安装了持续集成 (CI) 和持续部署 (CD) 流水线所需的工具。它包括
用例:对于希望为其 Airflow 代码库或插件设置自动化 CI/CD 流水线的开发人员来说是理想的选择。 安装 Hadoop 开发airflow[devel_hadoop] – Hadoop 开发依赖项 此 Extra 添加了 Airflow 中Hadoop 相关开发所需的依赖项。它包括
用例:推荐给在基于 Hadoop 的环境中处理大数据的开发人员。 安装 测试框架airflow[test] – 测试依赖项 此 Extra 安装了编写 Airflow 组件、DAG 和自定义插件测试所需的流行测试框架。它包括
用例:对于编写单元测试和对 Airflow 功能及工作流进行测试驱动开发 (TDD) 的开发人员至关重要。 安装 类型检查airflow[mypy] – 类型检查依赖项 此 Extra 安装了类型检查依赖项,以确保 Airflow 类型注解的正确性。它包括
用例:对于专注于静态代码分析并确保 Airflow 项目类型安全的开发人员很有用。 安装 Linting 工具airflow[lint] – Linting 工具 此 Extra 安装了linting 工具,有助于强制执行编码风格指南并识别代码库中的潜在问题。它包括
用例:强烈推荐用于确保 Airflow 开发环境中的干净、可读和可维护的代码。 安装 如何一次安装多个开发 Extras要一次安装多个开发工具,您可以在单个命令中将它们组合起来 这些开发 Extras 增强了 Airflow 的开发流程,提供了用于代码质量、测试、CI/CD 集成和类型安全的工具,确保核心贡献者和插件开发人员都能高效工作并维护高质量的代码。 Bundle 开发 Extras这些 Extras 专为贡献 Airflow 项目的开发人员设计,包括用于构建、测试和调试的工具。 示例
Bundle 开发 Extras 是一套为贡献 Airflow 项目的开发人员设计的工具,提供了构建、测试和调试 Airflow 核心组件所需的一切。这些 Extras 对于创建、维护和贡献Airflow 代码库及相关文档至关重要。 以下是Bundle 开发 Extras 的详细 breakdown: 核心开发 CI/CD 工具airflow[devel_ci]: Airflow 核心开发 CI/CD 工具 此 Extra 安装了持续集成 (CI) 和持续部署 (CD) 流程所需的依赖项,特别是针对Airflow 核心开发。它包括
用例:对于处理Airflow 核心存储库或为贡献设置自动化测试流水线的贡献者至关重要。 安装 全面的开发工具airflow[devel_all] – 所有开发依赖项 此 Extra 安装了对 Airflow 核心贡献者有用的所有开发相关依赖项。它包括
用例:适合需要全面工具集进行编码、测试和调试的贡献 Airflow 源代码的开发人员。 安装 文档生成工具此 Extra 安装了生成 Airflow 文档所需的依赖项。它包括
用例:对于贡献Airflow 官方文档或构建本地文档副本以进行测试和预览更改的开发人员至关重要。 安装 如何一次安装多个 Bundle 开发 Extras要一次安装多个 Bundle 开发 Extras,您可以在单个命令中将它们组合起来 这些Bundle 开发 Extras 专门用于支持在 Airflow 代码库及相关文档上工作的开发人员,提供了一套完整的工具,以确保开发过程的质量、效率和可维护性。 Doc Extras文档 Extras 允许用户在本地生成和构建 Airflow 的文档。 示例
已弃用的 1.10 Extras在 Airflow 2.x 中,Airflow 1.10 的一些 extras 已被弃用或被提供商包取代。 示例
Apache Airflow extras 允许用户通过与云提供商、数据库、消息系统等的集成来扩展 Airflow 的核心功能。 airflow[pandas] – 用于数据操作的 PandasPandas 是 Python 中用于数据分析和操作的强大库。此 Extra 允许 Airflow
用例:如果您的工作流涉及ETL 管道或数据工程任务,Pandas 可以在将数据加载到数据库之前帮助进行预处理和分析。 安装 如何一次安装多个本地安装的软件 Extras您可以通过在一个命令中指定它们来一次安装多个 extras。例如 这些本地安装的软件 Extras 使 Airflow 能够与本地数据库、远程服务器、容器和数据处理库无缝集成,使其成为工作流自动化和编排的强大工具。 下一个主题Apache-airflow-pool |
我们请求您订阅我们的新闻通讯以获取最新更新。