天天看点

同步、异步、阻塞、非阻塞、BIO/NIO/AIO/IO复用模型一、什么是socket?什么是I/O操作?二、同步、异步、阻塞、非阻塞

一、什么是socket?什么是I/O操作?

        我们都知道unix(like)世界里,一切皆文件,而文件是什么呢?文件就是一串二进制流而已,不管socket,还是FIFO、管道、终端,对我们来说,一切都是文件,一切都是流。在信息 交换的过程中,我们都是对这些流进行数据的收发操作,简称为I/O操作(input and output),往流中读出数据,系统调用read,写入数据,系统调用write。不过话说回来了 ,计算机里有这么多的流,我怎么知道要操作哪个流呢?对,就是文件描述符,即通常所说的fd,一个fd就是一个整数,所以,对这个整数的操作,就是对这个文件(流)的操作。我们创建一个socket,通过系统调用会返回一个文件描述符,那么剩下对socket的操作就会转化为对这个描述符的操作。不能不说这又是一种分层和抽象的思想。

二、同步、异步、阻塞、非阻塞

    实际上同步与异步是针对应用程序与内核的交互而言的。同步过程中进程触发IO操作并等待(也就是我们说的阻塞)或者轮询的去查看IO操作(也就是我们说的非阻塞)是否完成。 异步过程中进程触发IO操作以后,直接返回,做自己的事情,IO交给内核来处理,完成后内核通知进程IO完成。

同步和异步针对应用程序来,关注的是程序中间的协作关系;

阻塞与非阻塞更关注的是单个进程的执行状态。

同步有阻塞和非阻塞之分,异步没有,它一定是非阻塞的。

阻塞、非阻塞、多路IO复用,都是同步IO,异步必定是非阻塞的,所以不存在异步阻塞和异步非阻塞的说法。真正的异步IO需要CPU的深度参与。换句话说,只有用户线程在操作IO的时候根本不去考虑IO的执行全部都交给CPU去完成,而自己只等待一个完成信号的时候,才是真正的异步IO。所以,拉一个子线程去轮询、去死循环,或者使用select、poll、epool,都不是异步。

  • 同步:执行一个操作之后,进程触发IO操作并等待(也就是我们说的阻塞)或者轮询的去查看IO操作(也就是我们说的非阻塞)是否完成,等待结果,然后才继续执行后续的操作。
  • 异步:执行一个操作后,可以去执行其他的操作,然后等待通知再回来执行刚才没执行完的操作。
  • 阻塞:进程给CPU传达一个任务之后,一直等待CPU处理完成,然后才执行后面的操作。
  • 非阻塞:进程给CPU传达任我后,继续处理后续的操作,隔断时间再来询问之前的操作是否完成。这样的过程其实也叫轮询。

故事:老王烧开水。

出场人物:老张,水壶两把(普通水壶,简称水壶;会响的水壶,简称响水壶)。

老王想了想,有好几种等待方式

1.【同步阻塞】老王用水壶煮水,并且站在那里,不管水开没开,每隔一定时间看看水开了没。

老王想了想,这种方法不够聪明。

2.【同步非阻塞】老王还是用水壶煮水,不再傻傻的站在那里看水开,跑去寝室上网,但是还是会每隔一段时间过来看看水开了没有,水没有开就走人。

老王想了想,现在的方法聪明了些,但是还是不够好。

3.【异步阻塞】老王这次使用高大上的响水壶来煮水,站在那里,但是不会再每隔一段时间去看水开,而是等水开了,水壶会自动的通知他。-

老王想了想,不会呀,既然水壶可以通知我,那我为什么还要傻傻的站在那里等呢,嗯,得换个方法。

4.【异步非阻塞】老王还是使用响水壶煮水,跑到客厅上网去,等着响水壶自己把水煮熟了以后通知他。-

老王豁然,这下感觉轻松了很多。

  • 同步和异步

    同步就是烧开水,需要自己去轮询(每隔一段时间去看看水开了没),异步就是水开了,然后水壶会通知你水已经开了,你可以回来处理这些开水了。

    同步和异步是相对于操作结果来说,会不会等待结果返回。

  • 阻塞和非阻塞

    阻塞就是说在煮水的过程中,你不可以去干其他的事情,非阻塞就是在同样的情况下,可以同时去干其他的事情。阻塞和非阻塞是相对于线程是否被阻塞。

三、详细介绍

网络IO的模型大致包括下面几种

  • 同步模型(synchronous IO)
    • 阻塞IO(bloking IO)
    • 非阻塞IO(non-blocking IO)
    • 多路复用IO(multiplexing IO)
    • 信号驱动式IO(signal-driven IO)
  • 异步IO(asynchronous IO)
    • 异步IO

网络IO的本质是socket的读取,socket在linux系统被抽象为流,IO可以理解为对流的操作。对于一次IO访问,数据会先被拷贝到操作系统内核的缓冲区中,然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间,所以一般会经历两个阶段:

  1. 等待所有数据都准备好或者一直在等待数据,有数据的时候将数据拷贝到系统内核;
  2. 将内核缓存中数据拷贝到用户进程中;

对于socket流而言:

  1. 等待网络上的数据分组到达,然后被复制到内核的某个缓冲区;
  2. 把数据从内核缓冲区复制到应用进程缓冲区中;

3.1 阻塞IO

3.1.1 介绍

这也是最常用的模型,默认情况下所有的套接字都是 

阻塞

 的;

同步、异步、阻塞、非阻塞、BIO/NIO/AIO/IO复用模型一、什么是socket?什么是I/O操作?二、同步、异步、阻塞、非阻塞

我们把recvfrom函数视为系统调用,因为我们正区分进程和内核,系统调用一般都会从在应用进程空间中运行切换到内核空间中运行,一段时间后又再切换回来;

我们可以从图中看到,应用进程从 

进行系统调用

 到 

复制数据报到应用进程的缓冲区完成

 的整段时间内是被阻塞的;在这个过程中,要么正确到达,要么系统调用被信号打断;直到数据报被复制到用户进程完成后,用户进程才解除阻塞的状态,当然,这是用户进程自己进行的阻塞;

3.1.2 优点和缺点

  • 优点:能够及时返回数据,无延迟;方便调试;
  • 缺点:需要付出等待的代价;

3.2 非阻塞IO

3.2.1 介绍

非阻塞,当所请求的I/O操作非得把当前进程设置成睡眠才能完成时,不要把当前进程设置成睡眠,而是返回一个错误信息(数据报没有准备好的情况下),此时当前进程可以做其它的事情,不用阻塞;

同步、异步、阻塞、非阻塞、BIO/NIO/AIO/IO复用模型一、什么是socket?什么是I/O操作?二、同步、异步、阻塞、非阻塞

从图中可以得知,前三次系统调用时都没有数据可以返回,内核均返回一个 

EWOULDBLOCK

,并且不会阻塞当前进程,直到第四次询问内核缓冲区是否有数据的时候,此时内核缓冲区中已经有一个准备好的数据,因此将内核数据复制到用户空间,此时系统调用则返回成功;

当一个应用进程像这样对一个非阻塞socket循环调用 

recv/recvfrom

 时,则称为轮询;应用进程持续轮询内核,以查看某个操作是否就绪,这么做往往消耗大量的CPU时间。

3.2.2 优点和缺点

  • 优点:相较于阻塞模型,非阻塞不用再等待任务,而是把时间花费到其它任务上,也就是这个当前线程同时处理多个任务;
  • 缺点:导致任务完成的响应延迟增大了,因为每隔一段时间才去执行询问的动作,但是任务可能在两个询问动作的时间间隔内完成,这会导致整体数据吞吐量的降低。

3.3 IO多路复用

3.3.1 介绍

有了I/O复用,我们就可以调用 

select或poll

,让其阻塞在两个系统调用(1.询问数据是否准备好并且直到数据准备好才返回;2.内核是否把数据全部复制完成到用户进程)中的某一个之上

同步、异步、阻塞、非阻塞、BIO/NIO/AIO/IO复用模型一、什么是socket?什么是I/O操作?二、同步、异步、阻塞、非阻塞

图中阻塞于 

select

 调用,等待数据报套接字变为可读。当select返回套接字可读这一条件的时候,则调用 

recvfrom

 把所读数据报复制到应用进程缓冲区;

之前的同步非阻塞方式需要用户进程不停的轮询,但是IO多路复用不需要不停的轮询,而是派别人去帮忙循环查询多个任务的完成状态,UNIX/Linux 下的 

select、poll、epoll

 就是干这个的;select调用是内核级别的,select轮询相对非阻塞的轮询的区别在于---前者可以等待多个socket,能实现同时对多个IO端口进行监听,当其中任何一个socket的数据准好了,就能返回进行可读,然后进程再进行recvform系统调用,将数据由内核拷贝到用户进程,当然这个过程是阻塞的。select或poll调用之后,会阻塞进程,与blocking IO阻塞不同在于,此时的select不是等到socket数据全部到达再处理, 而是有了一部分数据(网络上的数据是分组到达的)就会调用用户进程来处理。如何知道有一部分数据到达了呢?监视的事情交给了内核,内核负责数据到达的处理。

我认为上面那句话中存在两个重要点:1.对多个socket进行监听,只要任何一个socket数据准备好就返回可读;2.不等一个socket数据全部到达再处理,而是一部分socket的数据到达了就通知用户进程;

其实 

select、poll、epoll

 的原理就是不断的遍历所负责的所有的socket完成状态,当某个socket有数据到达了,就返回可读并通知用户进程来处理;

3.3.2 优点和缺点

  • 优点:能够同时处理多个连接,系统开销小,系统不需要创建新的额外进程或者线程,也不需要维护这些进程和线程的运行,降低了系统的维护工作量,节省了系统资源。
  • 缺点:如果处理的连结数目不高的话,使用select/epoll的web server不一定比使用multi-threading + blocking IO的web server性能更好,可能延迟还更大。(因为阻塞可以保证没有延迟,但是多路复用是处理先存在的数据,所以数据的顺序则不管,导致处理一个完整的任务的时间上有延迟)

3.3.3 同步非阻塞和多线程+同步阻塞

高并发的程序一般使用同步非阻塞方式而非多线程 + 同步阻塞方式。要理解这一点,首先要扯到并发和并行的区别。比如去某部门办事需要依次去几个窗口,办事大厅里的人数就是并发数,而窗口个数就是并行度。也就是说并发数是指同时进行的任务数(如同时服务的 HTTP 请求),而并行数是可以同时工作的物理资源数量(如 CPU 核数)。通过合理调度任务的不同阶段,并发数可以远远大于并行度,这就是区区几个 CPU 可以支持上万个用户并发请求的奥秘。在这种高并发的情况下,为每个任务(用户请求)创建一个进程或线程的开销非常大。而同步非阻塞方式可以把多个 IO 请求丢到后台去,这就可以在一个进程里服务大量的并发 IO 请求。

3.4 信号驱动式I/O模型

同步、异步、阻塞、非阻塞、BIO/NIO/AIO/IO复用模型一、什么是socket?什么是I/O操作?二、同步、异步、阻塞、非阻塞

首先开启套接字的信号驱动式IO功能,并且通过 

sigaction

 系统调用安装一个信号处理函数,该函数调用将立即返回,当前进程没有被阻塞,继续工作;当数据报准备好的时候,内核则为该进程产生 

SIGIO

 的信号,随后既可以在信号处理函数中调用 

recvfrom

 读取数据报,并且通知主循环数据已经准备好等待处理,也可以通知主循环让它读取数据报;(其实就是一个待读取的通知和待处理的通知);

3.5 异步式I/O模型

同步、异步、阻塞、非阻塞、BIO/NIO/AIO/IO复用模型一、什么是socket?什么是I/O操作?二、同步、异步、阻塞、非阻塞

我们调用 

aio_read

 函数,给内核传递描述符、缓冲区指针、缓冲区大小和文件偏移,并且告诉内核当整个操作完成时如何通知我们。该函数调用后立即返回,不被阻塞;

同步、异步、阻塞、非阻塞、BIO/NIO/AIO/IO复用模型一、什么是socket?什么是I/O操作?二、同步、异步、阻塞、非阻塞

3.6 比较

同步、异步、阻塞、非阻塞、BIO/NIO/AIO/IO复用模型一、什么是socket?什么是I/O操作?二、同步、异步、阻塞、非阻塞

继续阅读