天天看点

Java大文件排序(有手就能学会)

背景

如果你的机儿内存只有8个G,现在要对一个10个G的文件进行排序,嘤嘤嘤。

思路

这是小白最能理解的一种方案,我们先把10个G大文件分成5个2G的小文件

假设原文件:2 15 4 18 1 9 7 12 6 5 8 4 7 16 3

小文件一:2 15 4

小文件二:18 1 9

小文件三:7 12 6

小文件四:5 8 4

小文件五:7 16 3

对每个小文件进行排序,这个就很多方法了,你可以直接读到内存进行排序,排完了再写回;

小文件一:2 4 15

小文件二:1 9 18

小文件三:6 7 12

小文件四:4 5 8

小文件五:3 7 16

5个小文件都排序好了后,我们依次从5个小文件中读取第一个元素,5个元素比较,选择最小的值min,新建一个文件,将min写入新文件

min(2 1 6 4 3)=1

存入LinkedList,此时LinkedList值为{1}

继续从小文件二中读取下一个元素9

min(2 9 6 4 3)=2

存入LinkedList,此时LinkedList值为{1,2}

继续从小文件一中读取下一个元素4

min(4 9 6 4 3)=3

存入LinkedList,此时LinkedList值为{1,2,3}

继续从小文件五中读取下一个元素7

min(4 9 6 4 7)=4

存入LinkedList,此时LinkedList值为{1,2,3,4}

继续从小文件一中读取下一个元素15

min(15 9 6 4 7)=4

存入LinkedList,此时LinkedList值为{1,2,3,4,4}

继续从小文件四中读取下一个元素5

min(15 9 6 5 7)=5

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5}

继续从小文件四中读取下一个元素8

min(15 9 6 8 7)=6

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6}

继续从小文件三中读取下一个元素7

min(15 9 7 8 7)=7

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7}

继续从小文件三中读取下一个元素12

min(15 9 12 8 7)=7

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7}

继续从小文件五中读取下一个元素16

min(15 9 12 8 16)=8

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8}

小文件四读取完毕

min(15 9 12 16)=9

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9}

继续从小文件二中读取下一个元素18

min(15 18 12 16)=12

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12}

小文件三读取完毕

min(15 18 16)=15

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15}

小文件一读取完毕

min(18 16)=16

存入LinkedList,此时LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15,16}

小文件五读取完毕

min(18)=18

小文件二读取完毕

存入LinkedList,最终LinkedList值为{1,2,3,4,4,5,6,7,7,8,9,12,15,16,18}

注意,这里是为了演示方便,便于小白理解过程,每次直接从文件中读取一个,实际操作中我们不可能每次都只读取一个,IO操作是很耗时的,也不用每次只对比5个,所以

优化

为了避免频繁IO,我们可以依次从每个小文件中读取一部分到内存,比如读取每个小文件的前1000条(读取的数量视情况而定,总之为了避免io,最好是在服务器顶得住的情况下尽量多读取一些到内存,因为一次内存操作和一次io操作耗时比起来几乎可以忽略),读取到内存后,用5个linkedList来接收,,我们对这5000条数据在内存中进行排序,排序算法自选,排好序写入新文件;写完后清空内存中的5000条数据,继续从每个新文件中读取一部分到内存,比如这次读取每个小文件的1001-2000条,以此类推…skr

ok我话讲完