天天看点

小内存读取大数据

问题:4G 内存怎么读取一个 5G 的数据?

方法一:

可以通过生成器,分多次读取,每次读取数量相对少的数据(比如 500MB)进行处理,处理结束后再读取后面的 500MB 的数据。

def get_lines_1():
    my_list = []
    with open("file.txt", "r") as f:
        for eachline in f:
            my_list.append(eachline)
    return my_list


def get_lines_2():
    with open("file.txt", "r") as f:
        while True:
            data = f.readlines(10)
            if not data:
                break
            yield data


if __name__ == '__main__':
    for e in get_lines_1():
        print(e)  # 处理每一行数据
    print("*" * 50)
    for e in get_lines_2():
        print(e)
           

方法二:

可以通过 linux 命令 split 切割成小文件,然后再对数据进行处理,此方法效率比较高。可以按照行数切割,可以按照文件大小切割。

详细过程请点击 ☞ https://blog.csdn.net/apollo_miracle/article/details/84143921

继续阅读