實作MapReduce程式完成單詞統計

一、目的

了解MapReduce在Hadoop體系結構中的角色，通過該實驗後，能設計開發簡單的MapReduce程式。

二、裝置

計算機：CPU四核i7 6700處理器；記憶體8G； SATA硬碟2TB硬碟； Intel晶片主機闆；內建聲霸卡、千兆網卡、顯示卡； 20寸液晶顯示器。

編譯環境：（1）作業系統：Linux （2）Hadoop版本：2.7.2 機器：虛拟機3台（3）Eclipse 4.7

三、内容

3.1啟動Hadoop服務

（1）格式化namenode。

（2）啟動Hadoop。

[[email protected] ~]# cd /opt/module/hadoop-2.7.2/
[[email protected] hadoop-2.7.2]# sbin/./start-all.sh

實作MapReduce程式完成單詞統計

（3）用jps驗證伺服器服務是否啟動成功。

實作MapReduce程式完成單詞統計

3.2開發LineCount程式

（1）打開Eclipse開發工具，建立Maven項目。

實作MapReduce程式完成單詞統計

（2）WORDCOUNT代碼

WordCountMapper：

package com.lizi.mr;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //拿到輸入的這行資料
        String line = value.toString();
        //根據空格進行分割得到這行的單詞
        String[] words = line.split(" ");
        //将單詞輸出為 <word,1>
        for (String word : words) {
            //将單詞作為key ，将次數 做為value輸出，
            // 這樣也利于後面的資料分發，可以根據單詞進行分發，
            // 以便于相同的單詞落到相同的reduce task 上,友善統計
            context.write(new Text(word), new IntWritable(1));
        }
    }
}

WordCountReduce：

package com.lizi.mr;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        String word = key.toString();
        int count = 0;
        for (IntWritable value : values) {
            count += value.get();
        }
        context.write(key, new IntWritable(count));
    }
}

WordCountDriver：

package com.lizi.mr;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        // mapreduce.framework.name 配置成 local 就是本地運作模式,預設就是local
        // 所謂的叢集運作模式 yarn ,就是送出程式到yarn 上. 要想叢集運作必須指定下面三個配置.
        conf.set("mapreduce.framework.name", "yarn");
        conf.set("yarn.resoucemanager.hostname", "hadoop101");
        conf.set("fs.defaultFS","hdfs://hadoop101:9000/");
        Job job = Job.getInstance(conf);
        //指定本程式的jar 包 所在的本地路徑
        job.setJarByClass(WordCountDriver.class);
        //指定本次業務的mepper 和 reduce 業務類
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReduce.class);
        //指定mapper 輸出的 key  value 類型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        //指定 最終輸出的 kv  類型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //指定job的輸入原始檔案所在目錄
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        //指定job 輸出的檔案目錄
        FileOutputFormat.setOutputPath(job,new Path(args[1]));
        boolean waitForCompletion = job.waitForCompletion(true);
        System.exit(waitForCompletion ? 0 : 1);
    }
}

3.3導出jar檔案。

我們需要将開發的LineCount.java編譯後的class打成jar包，并上傳到master伺服器上才能運作。可以使用jar指令也可以使用Eclipse裡的導出jar包功能。在MapReduce項目上點選右鍵，點選“export”,如下圖：

實作MapReduce程式完成單詞統計

3.4将jar檔案上傳到master伺服器上。

實作MapReduce程式完成單詞統計

3.5準備測試資料

首先在本地見檔案，編寫内容，之後上傳到HDFS系統上面。

[[email protected] hadoop-2.7.2]# cd /home/hadoop/
[[email protected] hadoop]# lstest.txt  下載下傳
[[email protected] hadoop]# touch file1.txt
[[email protected] hadoop]# vi file1.txt

實作MapReduce程式完成單詞統計

上傳到HDFS系統：

[[email protected] hadoop-2.7.2]# hadoop fs -mkdir -p /user/hadoop/mapreduce/input
[[email protected] hadoop-2.7.2]# hadoop fs -put /home/hadoop/file1.txt /user/hadoop/mapreduce/input/
[[email protected] hadoop-2.7.2]# hadoop fs -ls /user/hadoop/mapreduce/input/
Found 1 items
-rw-r--r--   2 root supergroup         71 2020-05-12 23:43 /user/hadoop/mapreduce/input/file1.txt

運作JAR包：

檢視輸出目錄：

[[email protected] hadoop-2.7.2]# hadoop fs -ls /user/hadoop/mapreduce/output1
Found 2 items
-rw-r--r--   2 root supergroup          0 2020-05-12 23:53 /user/hadoop/mapreduce/output1/_SUCCESS
-rw-r--r--   2 root supergroup         73 2020-05-12 23:53 /user/hadoop/mapreduce/output1/part-r-00000

檢視part-r-00000：

實作MapReduce程式完成單詞統計

實作MapReduce程式完成單詞統計

一、目的

二、裝置

三、内容

3.1啟動Hadoop服務

3.2開發LineCount程式

3.3導出jar檔案。

3.4将jar檔案上傳到master伺服器上。

3.5準備測試資料

繼續閱讀

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method