序列化就是将内存中的对象,转换成字节序列(或者按照其他数据传输协议转换),以便于持久化存储到磁盘中以及网络传输
一般情况下,对象只存储在本地的内存中,只允许本地的进程调用。而随着分布式程序的出现,需要在不同的主机上不同进程调用对象,这就需要将对象通过网络传输到另外的主机上。但是对象不经过处理无法通过网络传输,而通过序列化处理之后,对象可以通过网络传输了。
java中自行实现了序列化方案,只要定义一个类的时候实现 Serializable 接口,那么java内部就会自动实现相应的序列化。如:
但是由于Java中的序列化接口实现的时候,会附带很多额外的信息,如各种校验信息,header,继承体系等。不便于在网络上高效传输(性能不高)。所以hadoop自己额外实现了序列化的机制,体积短小,占用带宽低,序列化和反序列化快速
hadoop中以实现 Writable 这个接口的类,就可以序列化。而且hadoop实现了许多基本类型的可序列化的类。依赖图如下所示:

图 2.1 hadoop序列化依赖图
可以看到所有的可序列化的类都实现了 WritableComparable 这个接口,这个接口同时继承了 Writable 以及 Comparable 接口。下面看看这个这三个接口:
java类型
hadoop writable类型
boolean
BooleanWritable
byte
ByteWritable
Int
IntWritable
float
FloatWritable
long
LongWritable
double
DoubleWritable
string
Text
map
MapWritable
array
ArrayWritable
下面挑个IntWritable这个常用的序列化类来看看源码
其他short,long的序列化类的实现也是类似的。
要点:
(1)必须实现 Writable接口
(2)必须有无参构造方法,因为反序列化时需要反射调用无参构造方法
(3)重写序列化方法
(4)重写反序列化方法
(5)序列化写入和反序列化读取时要注意,写入和读取的顺序必须完全一致
(6)按照需要可以重写 toSting 方法,便于保存在文件中的内容
(7)如果该自定义序列化类是作为键值对中的key使用的话,因为MapReduce中会以key进行排序,那么就会涉及到 key 的比较问题。所以需要实现 Comparable 接口。而该接口就得实现 compareTo 方法
首先属性中的自定义类也是需要实现序列化接口的。所以下面的DateDimension和ContactDimension都是已经实现序列化的了。