天天看点

python开启多进程(使用进程池multiprocessing.Pool)一、摘要二、示例三、注意事项及建议

一、摘要

python和java、C++不一样,java一般在进行多项耗时计算时常采用多线程,而python则更适合采用多进程。关于线程和进程的区别,这里不作详细解释。这里介绍一种python开启多进程的方法,使用multiprocessing.Pool进程池。

二、示例

import traceback
from multiprocessing import Pool
import time

def work(province, arr):
    #在这里进行复杂或耗时的计算
    time.sleep(10)
    print(arr)
    print(time.strftime("%Y-%m-%d %H:%M:%S"), "finish....", province)
    arr.append("新数据:" + province)
    return arr

def workMulti(province, arr):
    try:
        work(province, arr)
    except Exception as e:
        print('Error: %s' % (province), traceback.print_exc())

if __name__ == '__main__':
    provinces = ["北京市", "天津市", "上海市", "重庆市", "河北省",
                "河南省", "云南省", "辽宁省", "黑龙江省", "湖南省",
                "广西壮族自治区", "广东省", "海南省"]
    arr=["原数据"]
    po = Pool(processes=5) #允许开几个进程
    for province in provinces:
        print("Add task:", province)
        # 开启进程运行workMulti函数,传入参数province,arr。
        # 注意最后一个逗号是必须的,不是多余的
        po.apply_async(workMulti, args=(province,arr,))
    print("AAA****************************")
    po.close() #关闭进程池入口,此后不能再向进程池中添加任务了
    print("BBB****************************")
    po.join() #阻塞等待,只有进程池中所有任务都完成了才往下执行
    print("CCC****************************")
           

这里开启多进程去简单打印省份,实际应用中只需把复杂或耗时的计算放到work中即可。运行结果如下:

python开启多进程(使用进程池multiprocessing.Pool)一、摘要二、示例三、注意事项及建议

三、注意事项及建议

1、关于进程的开启代码一定要放在if __name__ == '__main__':代码之下,不能放到函数中或其他地方。

2、po.apply_async(workMulti, args=(province,arr,))开启进程调用workMulti,需要几个参数传几个,最后需要加一个逗号,因为其传递的参数是tuple类型。

3、进程之间的参数变量是不共享的, 在某个进程中修改其函数参数, 在其他进程中是不可见的。这里每次打印的都是['原数据']足以说明。

4、进程池接受任务并非阻塞式。这里进程池虽然只开5个,但它可以一次性接受很多任务, 任务的执行由进程池Pool自行安排,这里打印的Add task是连续的,并不需要等待进程池有空进程。

5、这里为何要调用workMulti而不直接调用work?

答:假如work函数中报错,你会发现程序看起来运行正常,你将发现不了错误。通过在workMulti中加入try:...except:...以及traceback.print_exc(),我们可以打印出进程运行的异常。

6、多进程如何接收计算结果?

答:方法1:使用callback回调方法,我没使用过,不详细说明

       方法2:在进程中把计算结果保存下来,如保存到数据库或文件,所有进程计算结束后再提取。我多采用这种方法,这种方法在部分进程计算失败后仍然能保留计算成功的那些结果。

7、开启多少个进程合适?

答:看你跑的是什么类型的任务。如果是计算密集型(耗CPU的),建议开启和CPU核心线程数一样的进程,如果同时你还要操作计算机或进行其他任务,那最好再留出一点CPU,不然将会卡死。如果是耗时型(不耗CPU,如网络请求等),可以考虑开多一些进程,不需要考虑CPU核心线程数。

author:蓝何忠

email:[email protected]