hadoop_MapReduce 自定義outputFormat

自定義outputFormat

- - - 适用場景
    - 分析
    - 實作思路
    - 代碼實作：
    - - 自定義一個outputformat
      - 定義RecordWriter類
      - 定義Map
      - 定義Driver主類

适用場景

将最終的資料分開到不同的檔案夾下面去

分析

程式的關鍵點是要在一個mapreduce程式中根據資料的不同，輸出兩類結果到不同目錄，這類靈活的輸出需求可以通過自定義outputformat來實作

實作思路

實作要點：

1、在mapreduce中通路外部資源
2、自定義outputformat，改寫其中的recordwriter，改寫具體輸出資料的方法write()

代碼實作：

自定義一個outputformat

import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class DiyOutputFormat extends FileOutputFormat<Text, NullWritable> {
    @Override
    public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
        FileSystem fileSystem = FileSystem.get(taskAttemptContext.getConfiguration());
        FSDataOutputStream goodReview = fileSystem.create(new Path("輸出資料路徑"));
        FSDataOutputStream bedReview = fileSystem.create(new Path("輸出資料路徑"));
        DiyRecordWriter diyRecordWriter = new DiyRecordWriter(goodReview,bedReview);
        return diyRecordWriter;
    }
}

定義RecordWriter類

import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;

import java.io.IOException;

public class DiyRecordWriter extends RecordWriter<Text, NullWritable> {
    private FSDataOutputStream goodReview;
    private FSDataOutputStream bedReview;

    public DiyRecordWriter(FSDataOutputStream goodReview, FSDataOutputStream bedReview) {
        this.goodReview = goodReview;
        this.bedReview = bedReview;

    }

	//根據項目需求編寫邏輯
    @Override
    public void write(Text text, NullWritable nullWritable) throws IOException, InterruptedException {
        String[] split = text.toString().trim().split("\\t");
        if (split[9].equals("0")) {
            goodReview.write(text.toString().getBytes());
            goodReview.write("\r\n".getBytes());
        } else {
            bedReview.write(text.toString().getBytes());
            bedReview.write("\r\n".getBytes());
        }

    }

    @Override
    public void close(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
        if (goodReview != null) {
            goodReview.close();
        }
        if (bedReview != null) {
            bedReview.close();
        }
    }
}

定義Map

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class DiyMap extends Mapper<LongWritable, Text, Text, NullWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        context.write(value, NullWritable.get());

    }
}

定義Driver主類

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

public class DiyDriver {
    public static void main(String[] args) throws Exception {

        Job job = Job.getInstance(new Configuration(), "");

        job.setJarByClass(DiyDriver.class);
        job.setMapperClass(DiyMap.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        job.setInputFormatClass(TextInputFormat.class);
        TextInputFormat.addInputPath(job, new Path("讀取資料路徑"));

        job.setOutputFormatClass(DiyOutputFormat.class);
        DiyOutputFormat.setOutputPath(job, new Path("輸出的success資料路徑"));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

看了不點贊，坤坤咬你蛋！！！

hadoop_MapReduce 自定義outputFormat

自定義outputFormat

适用場景

分析

實作思路

代碼實作：

自定義一個outputformat

定義RecordWriter類

定義Map

定義Driver主類

繼續閱讀

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

ubuntu hadoop2.6.1，terminal下運作wordcount

MapReduce(一)：入門級程式wordcount及其分析

HiveQl語句應用執行個體：WordCount具體步驟如下：

hadoop操作遇到的問題問題一：輸出檔案已存在

用mapreduce計算wordCount和手機流量統計程式運作過程WordCount統計手機流量統計

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

專家訪談：搜尋開源力量：Lucene技術前景

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理