Apache Pig TOKENIZE 函数

2025 年 3 月 17 日 | 阅读 1 分钟

Apache Pig TOKENIZE 函数用于分割现有字符串,并生成一个单词包作为结果。

TOKENIZE 函数的示例

在这个例子中,我们将字符串分割成标记。

执行 TOKENIZE 函数的步骤

  • 在您的本地机器上创建一个文本文件,并插入元组列表。
Apache Pig TOKENIZE Function
  • 检查插入到文本文件中的元组。
Apache Pig TOKENIZE Function
  • 将文本文件上传到 HDFS 的特定目录中。
  • 打开 pig MapReduce 运行模式。
  • 加载包含数据的文。
  • 现在,执行并验证数据。
Apache Pig TOKENIZE Function
  • 让我们返回字符串的标记化形式。
Apache Pig TOKENIZE Function

在这里,我们得到了期望的输出。