天天看点

怎么从1T文本文件中找出两行相同的语句?

提出问题:

1T文本数据,行存储,每行大概100kb

能不能找出两个相同的行?

能找出,怎么优化?

想想,wordcount样例,在一个文档中,统计出每个单词出现的次数。

它是怎么实现的呢?

1T数据,本身就是大数据,每行100kb,有多少行呢?又是一个大数据。要统计相同的两行,就要遍历整个文本。又是大数据的计算,相当好时间。