提出问题:
1T文本数据,行存储,每行大概100kb
能不能找出两个相同的行?
能找出,怎么优化?
想想,wordcount样例,在一个文档中,统计出每个单词出现的次数。
它是怎么实现的呢?
1T数据,本身就是大数据,每行100kb,有多少行呢?又是一个大数据。要统计相同的两行,就要遍历整个文本。又是大数据的计算,相当好时间。
提出问题:
1T文本数据,行存储,每行大概100kb
能不能找出两个相同的行?
能找出,怎么优化?
想想,wordcount样例,在一个文档中,统计出每个单词出现的次数。
它是怎么实现的呢?
1T数据,本身就是大数据,每行100kb,有多少行呢?又是一个大数据。要统计相同的两行,就要遍历整个文本。又是大数据的计算,相当好时间。