怎么从1T文本文件中找出两行相同的语句？

2023-06-24 12:00:32

提出问题：

1T文本数据，行存储，每行大概100kb

能不能找出两个相同的行？

能找出，怎么优化？

想想，wordcount样例，在一个文档中，统计出每个单词出现的次数。

它是怎么实现的呢？

1T数据，本身就是大数据，每行100kb，有多少行呢？又是一个大数据。要统计相同的两行，就要遍历整个文本。又是大数据的计算，相当好时间。

上一篇: io_uring 之 liburing 的简单使用例子 1例子 2

下一篇: RSA公私钥生成

继续阅读