Hadoop初學指南(7)--MapReduce自定義計數器

2014-05-02 22:05:23

本文主要介紹了MapReduce中的自定義計數器的相關内容。

在上次的單詞統計例子中，我們可以看到MapReduce在執行過程中會有很多的控制台輸出資訊，其中有一個很關鍵的内容：計數器。如下圖：

可以看到最上方的關鍵字：Counters，這就表示計數器。

在這裡，隻有一個制表符縮進的表示計數器組，有兩個制表符縮進的表示計數器組下的計數器。如File Output Format Counters就表示檔案輸出的計數器組，裡面的Bytes Written表示輸出的字元數，在輸出的文本中，hello,you,me加起來是10個字元，2,1,1加起來是3個字元，中間在加上3個制表符，前兩行中有2個換行符，最後一行有一個結束符，總共19個，跟計數器的19相等。

同時在第4組中，我們可以看到Reduce input records是4，Map output records也是4，說明了Map的輸出就是Reduce的輸入。

那麼這些都是系統的計數器，如何自定義計數器呢？

例如，這裡我們要記錄一下hello出現的次數，隻需要在自己的Mapper中加上計數器的相關内容即可，代碼如下：

static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
    protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException {
        Counter helloCounter = context.getCounter("Sensitive Words", "hello");
        String line = v1.toString();
        if(line.contains("hello")){
            helloCounter.increment(1L);
        }
        final String[] splited = line.split(" ");
        for (String word : splited) {
            context.write(new Text(word), new LongWritable(1));
        }
        };
    }

對比原來的mapper，我們發現，隻需要通過context擷取計數器，然後根據需要記錄相關内容即可。

以下是執行過程中控制台輸出的内容：

Hadoop初學指南(7)--MapReduce自定義計數器

繼續閱讀

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

ubuntu hadoop2.6.1，terminal下運作wordcount

MapReduce(一)：入門級程式wordcount及其分析

HiveQl語句應用執行個體：WordCount具體步驟如下：

hadoop操作遇到的問題問題一：輸出檔案已存在

用mapreduce計算wordCount和手機流量統計程式運作過程WordCount統計手機流量統計

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

專家訪談：搜尋開源力量：Lucene技術前景

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理