MapReduce 字数统计示例

17 Mar 2025 | 阅读 2 分钟

在 MapReduce 字数统计示例中,我们找出每个单词的频率。在这里,Mapper 的作用是将键映射到现有的值,而 Reducer 的作用是聚合公共值的键。因此,所有内容都以键值对的形式表示。

先决条件

  • Java 安装 - 使用以下命令检查 Java 是否已安装。
    java -version
  • Hadoop 安装 - 使用以下命令检查 Hadoop 是否已安装。
    hadoop version

如果您的系统未安装其中任何一个,请按照以下链接进行安装。

www.javatpoint.com/hadoop-installation

执行 MapReduce 字数统计示例的步骤

  • 在您的本地计算机上创建一个文本文件,并在其中写入一些文本。
    $ nano data.txt
MapReduce Word Count Example
  • 检查写入 data.txt 文件中的文本。
    $ cat data.txt
MapReduce Word Count Example

在本例中,我们找出该文本文件中存在的每个单词的频率。

  • 在 HDFS 中创建一个目录,用于存放文本文件。
    $ hdfs dfs -mkdir /test
  • 将 data.txt 文件上传到 HDFS 的特定目录中。
    $ hdfs dfs -put /home/codegyani/data.txt /test
MapReduce Word Count Example
  • 使用 eclipse 编写 MapReduce 程序。

文件:WC_Mapper.java

文件:WC_Reducer.java

文件:WC_Runner.java

下载源代码。

  • 创建此程序的 jar 文件并将其命名为countworddemo.jar。
  • 运行 jar 文件
    hadoop jar /home/codegyani/wordcountdemo.jar com.javatpoint.WC_Runner /test/data.txt /r_output
  • 输出存储在 /r_output/part-00000 中
MapReduce Word Count Example
  • 现在执行命令以查看输出。
    hdfs dfs -cat /r_output/part-00000
MapReduce Word Count Example
下一主题字符计数示例