Apache Pig FILTER 运算符

2025 年 3 月 17 日 | 阅读 1 分钟

Apache Pig FILTER 运算符用于删除关系中的重复元组。最初,Pig 会对给定数据进行排序,然后删除重复项。

FILTER 运算符示例

在此示例中,我们删除重复的元组。

执行 FILTER 运算符的步骤

  • 在您的本地计算机上创建一个文本文件,并为其提供一些值。
Apache Pig FILTER Operator
  • 检查写入文本文件中的值。
Apache Pig FILTER Operator
  • 将文本文件上传到 HDFS 的特定目录中。
  • 打开 pig MapReduce 运行模式。
  • 加载包含数据的文。
  • 现在,执行并验证数据
Apache Pig FILTER Operator
  • 让我们执行 FILTER 运算符来删除重复的元组。
  • 现在,执行并验证数据。
Apache Pig FILTER Operator

在这里,我们得到了期望的输出。

下一主题FOREACH 运算符