MapReduce-Counter使用-快速實作大檔案行數的統計

在普通的java程式中我們可以定義一個全局的靜态變量，然後我們可以在各個類中去使用，實作累加器的功能，然而在mapruduce中怎麼實作這一功能呢，各個map可能運作在不同的JVM中（這裡不考慮JVM重用的情況），然而我們可以借助MapReduce提供的Counter功能來實作這一功能，下面我們通過一個執行個體來說明這一個用法。

實驗要求：快速實作檔案行數，以及其中錯誤記錄的統計

實驗資料：

error

解決思路：

定義一個枚舉類型，每次調用map函數時，對值進行判斷，把判斷的結果分别寫入不同的Counter，最後輸出Counter的值

根據以上步驟下面是實作代碼：

map階段：

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MyMapper extends Mapper<LongWritable, Text, LongWritable, IntWritable> {
	/**
	 * 定義一個枚舉類型
	 * @date 2016年3月25日 下午3:29:44 
	 * @{tags}
	 */
	public static enum FileRecorder{
		ErrorRecorder,
		TotalRecorder
	}
	@Override
	protected void map(LongWritable key, Text value, Context context)
			throws IOException, InterruptedException {
		if("error".equals(value.toString())){
			/**
			 * 把counter實作累加
			 */
			context.getCounter(FileRecorder.ErrorRecorder).increment(1);
		}
		/**
		 * 把counter實作累加
		 */
		context.getCounter(FileRecorder.TotalRecorder).increment(1);
	}
}

啟動函數：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.NLineInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import com.seven.mapreduce.counter.MyMapper.FileRecorder;
public class JobMain {
	public static void main(String[] args) throws Exception {
		Configuration configuration = new Configuration();
		/**
		 * 使NLineInputFormat來分割一個小檔案，近而模拟分布式大檔案的處理
		 */
		configuration.setInt("mapreduce.input.lineinputformat.linespermap", 5); 
		Job job = new Job(configuration, "counter-job");
		job.setInputFormatClass(NLineInputFormat.class);  
		job.setJarByClass(JobMain.class);
		job.setMapperClass(MyMapper.class);
		job.setMapOutputKeyClass(LongWritable.class);
		job.setMapOutputValueClass(IntWritable.class);
		FileInputFormat.addInputPath(job, new Path(args[0]));
		Path outputDir = new Path(args[1]);
		FileSystem fs = FileSystem.get(configuration);
		if( fs.exists(outputDir)) {
			fs.delete(outputDir ,true);
		}
		FileOutputFormat.setOutputPath(job, outputDir);
		if(job.waitForCompletion(true) ? true: false) {
			System.out.println("Error num:" + job.getCounters().findCounter(FileRecorder.ErrorRecorder).getValue());
			System.out.println("Total num:" + job.getCounters().findCounter(FileRecorder.TotalRecorder).getValue());
		}
	}
}

運作結果：

MapReduce-Counter使用-快速實作大檔案行數的統計

總結：

由上可以看出總共跑了5個map任務，而且通過Counter實作了不同JVM中的全局累加器的功能。關于除自定義Counter以外的其它Counter的含義可以參考《MapReduce-Counters含義》

MapReduce-Counter使用-快速實作大檔案行數的統計

繼續閱讀

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

ubuntu hadoop2.6.1，terminal下運作wordcount

MapReduce(一)：入門級程式wordcount及其分析

HiveQl語句應用執行個體：WordCount具體步驟如下：

hadoop操作遇到的問題問題一：輸出檔案已存在

用mapreduce計算wordCount和手機流量統計程式運作過程WordCount統計手機流量統計

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

專家訪談：搜尋開源力量：Lucene技術前景

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理