Informatica 中的分区2025年3月17日 | 阅读 3 分钟 PowerCenter 集成服务在每个分区点创建一个默认分区类型。 如果我们有分区选项,我们可以更改分区类型。 分区类型控制 PowerCenter 集成服务如何在分区点之间分配数据。 当我们为管道配置分区信息时,我们必须在管道中的每个分区点定义一个分区类型。 分区类型决定了PowerCenter 集成服务如何在分区点之间重新分配数据。 以下是工作流管理器中的分区类型,例如 - 数据库分区: PowerCenter 集成服务查询 IBM DB2 或 Oracle 系统以获取表分区信息。 它从数据库中的相应节点读取分区数据。 将数据库分区与多节点表空间上的 Oracle 或 IBM DB2 源实例一起使用。 将数据库分区与 DB2 目标一起使用。
- 哈希分区: 当我们希望 PowerCenter 集成服务通过组将行分配到分区时,使用哈希分区。 例如,我们需要按项目 ID 对项目进行排序,但我们不知道有多少个项目具有特定的 ID 号。
以下是两种类型的哈希分区,例如- 哈希自动键: PowerCenter 集成服务使用所有分组或排序的端口作为复合分区键。 然后我们需要在 Rank、Sorter 和未排序的聚合器转换中使用哈希自动键分区。
- 哈希用户键: PowerCenter 集成服务使用哈希函数对分区之间的数据行进行分组。 并定义生成分区键的端口数。
- 键范围: 它指定一个或多个端口以形成复合分区键。 PowerCenter 集成服务根据我们为每个端口定义的范围将数据传递到每个分区。 在管道中的源或目标按键范围进行分区时,使用键范围分区。
- 直通: PowerCenter 集成服务将一个分区点中的所有行传递到下一个分区点,而无需重新分配它们。 在我们希望创建一个新的管道阶段以提高性能,但不想更改分区之间的数据分布时,选择直通分区。
- 循环: PowerCenter 集成服务将数据块分配到一个或多个分区。 使用循环分区,以便每个分区根据块的数量和大小来处理行。
Informatica 分区的主要点以下是我们在 Informatica 中使用分区时的一些要点,例如 - 我们不能为循环、哈希自动键和直通分区创建分区键。
- 如果我们对目标有位图索引并使用直通分区,那么我们需要更新目标表。 在此过程中,会话可能会失败,因为位图索引会产生锁定问题。
- 分区增加了总的 DTM 缓冲区内存需求。 为了确保有足够的可用内存以避免内存分配失败。
- 当我们使用直通分区时,Informatica 尝试向数据库服务器发出多个连接请求。 为了确保数据库已配置为接受更多连接请求。
- 我们可以使用本机数据库选项作为分区替代方案,以提高查询处理的并行度。
例如,在 Oracle 数据库中,我们可以指定一个 PARALLEL 提示或更改表的 DOP。 - 我们还可以根据要求同时使用 Informatica 和本机数据库级别的并行处理。
例如,创建 2 个直通管道,每个管道都使用 PARALLEL 提示将查询发送到 Oracle 数据库。
|