Pig 示例

2024年8月28日 | 1分钟阅读

用例: 使用 Pig 查找出现次数最多的首字母。

解决方案

案例 1: 将数据加载到名为 "lines" 的 bag 中。整个行被存储到类型为字符数组的元素 line 中。

案例 2: bag lines 中的文本需要被分词,这将产生每行一个单词。

案例 3: 为了保留每个单词的首字母,请键入以下命令。此命令使用 substring 方法获取第一个字符。

案例 4: 创建一个用于唯一字符的 bag,其中分组 bag 将包含该字符的每次出现的相同字符。

案例 5: 计算每个组中出现的次数。

案例 6: 使用以下命令按降序排列输出结果。

案例 7: 限制为 1 以给出结果。

案例 8: 将结果存储在 HDFS 中。结果保存在 sonoo 文件夹下的输出目录中。

下一主题Pig UDF