Apache Pig DISTINCT 运算符

2025 年 3 月 17 日 | 阅读 1 分钟

Apache Pig DISTINCT 运算符用于删除关系中的重复元组。 最初,Pig 对给定数据进行排序,然后消除重复项。

DISTINCT 运算符的示例

在此示例中,我们消除了重复的元组。

执行 DISTINCT 运算符的步骤

  • 在您的本地计算机上创建一个文本文件,并为其提供一些值。
Apache Pig DISTINCT Operator
  • 检查写入文本文件中的值。
Apache Pig DISTINCT Operator
  • 将文本文件上传到 HDFS 的特定目录中。
  • 打开 pig MapReduce 运行模式。
  • 加载包含数据的文。
  • 现在,执行并验证数据。
Apache Pig DISTINCT Operator
  • 让我们执行 DISTINCT 运算符以消除重复的元组。
  • 现在,执行并验证数据。
Apache Pig DISTINCT Operator

在这里,我们得到了期望的输出。

下一个主题FILTER 运算符