天天看点

python 中间文件 传值_在Python中寻找文件的中间

我正在编写一个程序来搜索非常大(无序)文件中的特定行(因此最好不要将整个文件加载到内存中).

我正在实现多线程以加快该过程.我正在尝试为特定线程提供文件的特定部分,即第一个线程将运行到文件的第一季度,第二个线程从第一个线程停止的端点扫描(同时),以此类推.

因此,要做到这一点,我需要找到文件不同部分的字节位置,以简化问题,可以说我只想找到文件的中间位置.但问题是每行的长度都不同,所以如果我这样做

fo.seek(0, 2)

end = fo.tell()

mid = end/2

fo.seek(mid, 0)

它可以使我处于中间位置.因此,我需要一种寻找下一个或上一个换行符的方法.另外,请注意,我不希望确切的中间位置位于中间(因为它的文件很大).

这是我能够编写的代码,我不确定这是否会将文件加载到内存中.而且我真的很想避免打开同一文件的2个实例(我在程序中这样做是因为我不想担心读取文件时偏移量的变化).

任何更快的修改(或新程序)将不胜感激.

fo = open(filename, "rw+")

f2 = open(filename, "rw+")

file_ = dict()

fo.seek(0, 2)

file_['end'] = fo.tell()

file_['mid'] = file_['end'] / 2

fo.seek(file_['mid'], 0)

f2.seek(file_['mid'], 0)

line = f2.readline()

fo.seek(f2.tell(), 0)

file_['mid'] = f2.tell()

fo.seek(file_['mid'], 0)

print fo.readline()

解决方法:

多大才大?即使是1-10GB的文件,grep也会相对快速地流泪.

如果文件是静态文件,并且您打算重复搜索它,则可以拆分它:

split -l

现在您有了多个文件,并且可以将每个文件传递到单独的线程/进程/任何文件.

文件已排序吗?因为现在您可以使用fo.seek()调用进行二进制搜索,所以这再次改变了事情.

多快才足够快?超过某个点,您将必须建立搜索索引.到那时,简单的工具(例如grep,split等)就产生了奇迹.

没有更多信息,就无法说出正确的权衡.

标签:file-handling,search,python