十二、hadoop的序列化一、序列化基本概述二、hadoop中序列化

2019-10-29 11:50:03

序列化就是将内存中的对象，转换成字节序列（或者按照其他数据传输协议转换），以便于持久化存储到磁盘中以及网络传输

一般情况下，对象只存储在本地的内存中，只允许本地的进程调用。而随着分布式程序的出现，需要在不同的主机上不同进程调用对象，这就需要将对象通过网络传输到另外的主机上。但是对象不经过处理无法通过网络传输，而通过序列化处理之后，对象可以通过网络传输了。

java中自行实现了序列化方案，只要定义一个类的时候实现 Serializable 接口，那么java内部就会自动实现相应的序列化。如：

但是由于Java中的序列化接口实现的时候，会附带很多额外的信息，如各种校验信息，header，继承体系等。不便于在网络上高效传输（性能不高）。所以hadoop自己额外实现了序列化的机制，体积短小，占用带宽低，序列化和反序列化快速

hadoop中以实现 Writable 这个接口的类，就可以序列化。而且hadoop实现了许多基本类型的可序列化的类。依赖图如下所示：

图 2.1 hadoop序列化依赖图

可以看到所有的可序列化的类都实现了 WritableComparable 这个接口，这个接口同时继承了 Writable 以及 Comparable 接口。下面看看这个这三个接口：

java类型

hadoop writable类型

boolean

BooleanWritable

byte

ByteWritable

Int

IntWritable

float

FloatWritable

long

LongWritable

double

DoubleWritable

string

Text

map

MapWritable

array

ArrayWritable

下面挑个IntWritable这个常用的序列化类来看看源码

其他short，long的序列化类的实现也是类似的。

要点：

（1）必须实现 Writable接口

（2）必须有无参构造方法，因为反序列化时需要反射调用无参构造方法

（3）重写序列化方法

（4）重写反序列化方法

（5）序列化写入和反序列化读取时要注意，写入和读取的顺序必须完全一致

（6）按照需要可以重写 toSting 方法，便于保存在文件中的内容

（7）如果该自定义序列化类是作为键值对中的key使用的话，因为MapReduce中会以key进行排序，那么就会涉及到 key 的比较问题。所以需要实现 Comparable 接口。而该接口就得实现 compareTo 方法

首先属性中的自定义类也是需要实现序列化接口的。所以下面的DateDimension和ContactDimension都是已经实现序列化的了。

十二、hadoop的序列化一、序列化基本概述二、hadoop中序列化

继续阅读

[Hadoop]序列化机制

Hadoop2源码分析－序列化篇1.概述2.序列化的由来3.Hadoop序列化依赖图详解4.Writable常用实现类5.总结6.结束语

hadoop中的序列化与Writable接口

hadoop中的序列化与Writable类

Hadoop2源码分析－序列化篇1.概述2.序列化的由来3.Hadoop序列化依赖图详解4.Writable常用实现类5.总结6.结束语

Hadoop中的序列化1 简介2 实例3 自定义

Hadoop序列化1 序列化概述2 常用数据序列化类型3 自定义bean对象实现序列化接口（Writable）

Hadoop的序列化和反序列化，和实例演示