天天看点

02-12 单线程+多任务异步协程

一、 理论基础

1、线程是有限的,线程开启过多,CPU吃不消

2、多任务--理论上每个线程下可以开启很多协程,但实际效果一般
500个最佳,速度最快
           

‘’’

二、爬虫推荐单线程+多任务异步协程

1、协程

是一个对象,可以吧协程当做衣蛾特殊的函数,如果一个函数的
定义被async关键字修饰,该特殊的函数被调用后函数内部的程序语
句不会被立即执行,而是会返回一个协程对象,如eg1
           

2、任务对象(task):

所谓的任务对象就是协程对象的进一步封装
( 即是一个高级的协程对象)
在任务对象中可以实现显示协程对象的运行状况
    -任务对象需要被注册到时间循环对象中
    -核心:绑定回调
        -回调函数绑定给任务队象,只有当任务队象的特殊函数执行完
  毕后,回调函数才会被执行
           

3、事件循环对象

无限循环的对象(可以将其理解为一中容器,该容器中需要放置多
个任务对象)就是一组待执行的任务
    -无线循环:指所有的任务因为阻塞可能执行无数次,不是指含
有无限个任务
    -异步的提现:当事件循环开启后,该对象就会按照顺序执行每
一个任务对象
           

4、await

挂起的操作-可理解为交出CPU的使用权,(进程和线程中
 系统会对阻塞的任务自动挂起),但在协程中,需手动进行
 挂起操作
           

main_program:

from time import sleep
import asyncio

# 回调函数,其默认参数为任务队象
def call_back(task):
    print('i am callback!!!','开始执行我了')
    print(task.result()) #这里的返回值就是任务队象中那个特殊的函数的返回值

async def get_request(url):
    print('现在请求:',url)
    sleep(2)
    print('请求结束了!!',url)
    return 'xinixn'

           

eg1:协程对象

#创建一个协程对象
c=get_request('www.huhu.com')
print(c)

返回为一个协程对象:<coroutine object get_request
 at 0x00000000021A6EC0>
           

eg2: 任务对象与事件循环对象的使用

#封装一个任务对象
task=asyncio.ensure_future(c)

# 给任务对象绑定回调函数
task.add_done_callback(callback)


# 创建一个事件循环对象
loop=asyncio.get_event_loop()

loop.run_until_complete(task) 
#将任务对象注册到事件循环对象中并且开启了事件循环
           

应用场景总结:

1、爬虫中,爬取响应和数据解析和两个过程,必须分先后进行(即只能能串行),因此上述

任务对象: 可封装爬取部分
回调函数:封装解析数据部分
           

2、任务对象就是:

封装的待执行的特殊代码块
           

3、事件循环对象中

默认有一个事件执行情况监控机制,运行过程中某个事件发生了阻
塞,就会自动切换另外任务执行,从而实现异步
           

继续阅读