MapReduce字符计数示例

17 Mar 2025 | 阅读 2 分钟

在MapReduce字符计数示例中,我们找出每个字符的频率。这里,Mapper的作用是将键映射到现有值,Reducer的作用是聚合具有公共值的键。因此,所有内容都以键值对的形式表示。

先决条件

  • Java安装 - 使用以下命令检查是否已安装Java。
    java -version
  • Hadoop安装 - 使用以下命令检查是否已安装Hadoop。
    hadoop version

如果您的系统中未安装任何一个,请按照以下链接进行安装。

www.javatpoint.com/hadoop-installation

执行MapReduce字符计数示例的步骤

  • 在您的本地计算机上创建一个文本文件,并在其中写入一些文本。
    $ nano info.txt
MapReduce Char Count Example
  • 检查info.txt文件中编写的文本。
    $ cat info.txt
MapReduce Char Count Example

在此示例中,我们找出此文本文件中存在的每个字符值的频率。

  • 在 HDFS 中创建一个目录,用于存放文本文件。
    $ hdfs dfs -mkdir /count
  • 将info.txt文件上传到HDFS中的特定目录中。
    $ hdfs dfs -put /home/codegyani/info.txt /count
MapReduce Char Count Example
  • 使用eclipse编写MapReduce程序。

文件:WC_Mapper.java

文件:WC_Reducer.java

文件:WC_Runner.java

下载源代码。

  • 创建此程序的jar文件并将其命名为charcountdemo.jar。
  • 运行jar文件
    hadoop jar /home/codegyani/charcountdemo.jar com.javatpoint.WC_Runner /count/info.txt /char_output
  • 输出存储在/char_output/part-00000中
MapReduce Char Count Example
  • 现在执行命令以查看输出。
    hdfs dfs -cat /r_output/part-00000
MapReduce Char Count Example
下一个主题HBase教程