MaxCompute安装Eclipse开发插件

为了方便用户使用 MapReduce及UDF的Java SDK进行开发工作，MaxCompute 提供了Eclipse开发插件。该插件能够模拟MapReduce及UDF的运行过程，为用户提供本地调试手段，并提供了简单的模板生成功能。

一、安装

与MapReduce提供的本地运行模式不同，Eclipse插件不能够与ODPS同步数据。用户使用的数据需要手动拷贝到Eclipse插件的warehouse目录下。

下载Eclipse插件后，将软件包解压，会看到如下jar内容：

odps-eclipse-plugin-bundle-X.X.X.jar

将插件放置在Eclipse安装目录的plugins子目录下。打开Eclipse，点击右上角的打开透视图(Open Perspective)。

点击后出现透视图列表。

择ODPS，随后点击OK键。同样在右上角会出现ODPS图标，表示插件生效。

1、创建ODPS工程

创建ODPS工程有两种方式。

方式一：

在左上角选择文件(File) -> 新建(New)->Project->ODPS->ODPS Project，创建工程(示例中使用ODPS作为工程名)。

创建ODPS工程后会出现如下对话框。输入Project name，选择ODPS客户端路径(客户端需要提前下载)，并确认(点击Finish)。

创建好工程后，在左侧包资源管理器(Package Explorer)中可以看到如下目录结构。

方式二：

直接点击左上角的"新建"。

弹出对话框后，选择"ODPS Project",点击"下一步"。

后续操作同方式一。

2、MapReduce开发插件介绍

(1). 快速运行WordCount示例

选择ODPS项目中的WordCount示例。

右键"WordCount.java"，依次点击"Run As"，"ODPS MapReduce"。

弹出对话框后，选择"example_project"，点击确认。

运行成功后，会出现以下结果提示。

(2). 运行自定义MapReduce程序

右键选择src目录，选择新建(New) -> Mapper。

选择Mapper后出现下面的对话框。输入Mapper类的名字，并确认。

会看到在左侧包资源管理器(Package Explorer)中，src目录下生成文件UserMapper.java。该文件的内容即是一个Mapper类的模板。

package odps;

import java.io.IOException;

import com.aliyun.odps.data.Record;

import com.aliyun.odps.mapred.MapperBase;

public class UserMapper extends MapperBase {

@Override
public void setup(TaskContext context) throws IOException {
}

@Override
public void map(long recordNum, Record record, TaskContext context)
        throws IOException {
}

@Override
public void cleanup(TaskContext context) throws IOException {
}

}

模板中，将package名称默认配置为"odps"，用户可以根据自己的需求进行修改。编写模板内容。

import com.aliyun.odps.counter.Counter;

Record word;
Record one;
Counter gCnt;

@Override
public void setup(TaskContext context) throws IOException {
      word = context.createMapOutputKeyRecord();
      one = context.createMapOutputValueRecord();
      one.set(new Object[] { 1L });
      gCnt = context.getCounter("MyCounters", "global_counts");
}

@Override
public void map(long recordNum, Record record, TaskContext context)
        throws IOException {
      for (int i = 0; i < record.getColumnCount(); i++) {
          String[] words = record.get(i).toString().split("\\s+");
          for (String w : words) {
            word.set(new Object[] { w });
            Counter cnt = context.getCounter("MyCounters", "map_outputs");
            cnt.increment(1);
            gCnt.increment(1);
            context.write(word, one);
          }
        }
      }

@Override
public void cleanup(TaskContext context) throws IOException {
}

同理，右键选择src目录，选择新建(New)->Reduce。

输入Reduce类的名字(本示例使用UserReduce)。同样在包资源管理器(Package Explorer)中，src目录下生成文件UserReduce.java。该文件的内容即是一个Reduce类的模板。

import java.util.Iterator;

import com.aliyun.odps.mapred.ReducerBase;

public class UserReduce extends ReducerBase {

private Record result;
Counter gCnt;

@Override
public void setup(TaskContext context) throws IOException {
      result = context.createOutputRecord();
      gCnt = context.getCounter("MyCounters", "global_counts");
}

@Override
public void reduce(Record key, Iterator<Record> values, TaskContext context)
        throws IOException {

      long count = 0;
      while (values.hasNext()) {
        Record val = values.next();
        count += (Long) val.get(0);
      }
      result.set(0, key.get(0));
      result.set(1, count);
      Counter cnt = context.getCounter("MyCounters", "reduce_outputs");
      cnt.increment(1);
      gCnt.increment(1);

      context.write(result);
    }

@Override
public void cleanup(TaskContext context) throws IOException {
}

创建main函数，右键选择src目录，选择新建(New) -> MapReduce Driver。填写Driver Name(示例中是UserDriver)， Mapper及Recduce类(示例中是UserMapper及UserReduce)，并确认。同样会在src目录下看到MyDriver.java文件。

编辑driver内容。

import com.aliyun.odps.OdpsException;

import com.aliyun.odps.data.TableInfo;

import com.aliyun.odps.examples.mr.WordCount.SumCombiner;

import com.aliyun.odps.examples.mr.WordCount.SumReducer;

import com.aliyun.odps.examples.mr.WordCount.TokenizerMapper;

import com.aliyun.odps.mapred.JobClient;

import com.aliyun.odps.mapred.RunningJob;

import com.aliyun.odps.mapred.conf.JobConf;

import com.aliyun.odps.mapred.utils.InputUtils;

import com.aliyun.odps.mapred.utils.OutputUtils;

import com.aliyun.odps.mapred.utils.SchemaUtils;

public class UserDriver {

public static void main(String[] args) throws OdpsException {
    JobConf job = new JobConf();
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(SumCombiner.class);
    job.setReducerClass(SumReducer.class);

    job.setMapOutputKeySchema(SchemaUtils.fromString("word:string"));
    job.setMapOutputValueSchema(SchemaUtils.fromString("count:bigint"));

    InputUtils.addTable(
        TableInfo.builder().tableName("wc_in1").cols(new String[] { "col2", "col3" }).build(), job);
    InputUtils.addTable(TableInfo.builder().tableName("wc_in2").partSpec("p1=2/p2=1").build(), job);
    OutputUtils.addTable(TableInfo.builder().tableName("wc_out").build(), job);

    RunningJob rj = JobClient.runJob(job);
    rj.waitForCompletion();
}

运行MapReduce程序,选中UserDriver.java，右键选择Run As -> ODPS MapReduce，点击确认。出现如下对话框。

选择ODPS Project为example_project，点击Finish按钮开始本地运行MapReduce程序。

有如上输出信息，说明本地运行成功。运行的输出结果在warehouse目录下。

wc_out即是输出目录，R_000000即是结果文件。通过本地调试，确定输出结果正确后，可以通过Eclipse导出(Export)功能将MapReduce打包。打包后将jar包上传到ODPS中。

本地调试通过后，用户可以通过Eclipse的Export功能将代码打成jar包，供后续分布式环境使用。在本示例中，我们将程序包命名为mr-examples.jar。选择src目录，点击Export。

选择导出模式为Jar File。

仅需要导出src目录下package(com.aliyun.odps.mapred.open.example)，Jar File名称指定为"mr-examples.jar"。

确认后，导出成功。

如果用户想在本地模拟新建Project，可以在warehouse下面，创建一个新的子目录(与example_project平级的目录)。

|____my_project (项目空间目录)

|____ <__tables__>

| |__table_name1(非分区表)

| | |____ data(文件)

| | |

| | |____ <__schema__> (文件)

| |

| |__table_name2(分区表)

| |_____partition_name=partition_value(分区目录)

| | |____ data(文件)

| |

| |____ <__schema__> (文件)

|____ <__resources__>

|
      |___table_resource_name (表资源)
      |     |____<__ref__>
      |
      |___ file_resource_name（文件资源）

schema文件示例：

非分区表:

project=project_name

table=table_name columns=col1:BIGINT,col2:DOUBLE,col3:BOOLEAN,col4:DATETIME,col5:STRING

分区表:

table=table_name columns=col1:BIGINT,col2:DOUBLE,col3:BOOLEAN,col4:DATETIME,col5:STRING partitions=col1:BIGINT,col2:DOUBLE,col3:BOOLEAN,col4:DATETIME,col5:STRING

data文件示例：

1,1.1,true,2015-06-04 11:22:42 896,hello world

N,N,N,N,N

8.4 UDF开发插件介绍

(1). Local Debug UDF程序

在本章节我们将介绍如何使用Eclipse插件开发并在本地运行UDF。UDAF和UDTF的编写执行过程与UDF类似，均可参考UDF的示例介绍完成。ODPS Eclipse插件提供两种运行UDF的方式，菜单栏和右键单击快速运行方式。

菜单栏运行

从菜单栏选择Run-->Run Configurations...弹出如下对话框。

用户可以新建一个Run Configuration，选择运行的UDF类及类型、选择ODPS Project、填写输入表信息。

上述配置中，"Table"表示UDF的输入表，"Partitions"表示读取某个分区下的数据，分区由逗号分隔，"Columns"表示列，将依次作为UDF函数的参数被传入，列名由逗号分隔。

点击"Run"运行，运行结果将显示在控制台中。

右键单击快速运行

选中一个udf.java文件（比如：UDFExample.java）并单击鼠标右键，选择"Run As" -> "Run UDF|UDAF|UDTF"。

填入配置信息。

点击"Finish"后，运行UDF，获得输出结果。

(2). 运行用户自定义UDF程序

右击一个工程并选择"New-->UDF"（或者选择菜单栏File-->New-->UDF）。

填写UDF类名然后点击"Finish"。在对应的src目录下生成与UDF类名同名的Java文件，编辑该java文件内容。

import com.aliyun.odps.udf.UDF;

public class UserUDF extends UDF {

/**
   * project: example_project 
   * table: wc_in1 
   * columns: col1,col2
   * 
   */
  public String evaluate(String a, String b) {
    return "ss2s:" + a + "," + b;
  }

右击该java文件（如UserUDF.java），选择"Run As"，再选择"ODPS UDF|UDTF|UDAF"。

配置如下对话框。

点击"finish"，得出结果。

ss2s:A1,A2

MaxCompute安装Eclipse开发插件

继续阅读

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

Android电视机（机顶盒）初次开发的一些经验分享

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method