天天看點

進階必問:Linux 中的零拷貝技術是什麼?

正文

本文探讨Linux中 主要的幾種零拷貝技術 以及零拷貝技術 适用的場景 。為了迅速建立起零拷貝的概念,我們拿一個常用的場景進行引入:

01 引文

在寫一個服務端程式時(Web Server或者檔案伺服器),檔案下載下傳是一個基本功能。這時候服務端的任務是:将服務端主機磁盤中的檔案不做修改地從已連接配接的socket發出去,我們通常用下面的代碼完成:

while((n = read(diskfd, buf, BUF_SIZE)) > 0)    write(sockfd, buf , n);      

基本操作就是循環的從磁盤讀入檔案内容到緩沖區,再将緩沖區的内容發送到socket。但是由于Linux的I/O操作預設是緩沖I/O。這裡面主要使用的也就是read和write兩個系統調用,我們并不知道作業系統在其中做了什麼。實際上在以上I/O操作中,發生了多次的資料拷貝。

當應用程式通路某塊資料時,作業系統首先會檢查,是不是最近通路過此檔案,檔案内容是否緩存在核心緩沖區,如果是,作業系統則直接根據read系統調用提供的buf位址,将核心緩沖區的内容拷貝到buf所指定的使用者空間緩沖區中去。如果不是,作業系統則首先将磁盤上的資料拷貝的核心緩沖區,這一步目前主要依靠DMA來傳輸,然後再把核心緩沖區上的内容拷貝到使用者緩沖區中。

接下來,write系統調用再把使用者緩沖區的内容拷貝到網絡堆棧相關的核心緩沖區中,最後socket再把核心緩沖區的内容發送到網卡上。說了這麼多,不如看圖清楚:

進階必問:Linux 中的零拷貝技術是什麼?

資料拷貝

從上圖中可以看出,共産生了四次資料拷貝,即使使用了DMA來處理了與硬體的通訊,CPU仍然需要處理兩次資料拷貝,與此同時,在使用者态與核心态也發生了多次上下文切換,無疑也加重了CPU負擔。

在此過程中,我們沒有對檔案内容做任何修改,那麼在核心空間和使用者空間來回拷貝資料無疑就是一種浪費,而零拷貝主要就是為了解決這種低效性。

2 什麼是零拷貝技術(zero-copy)?

零拷貝主要的任務就是避免CPU将資料從一塊存儲拷貝到另外一塊存儲,主要就是利用各種零拷貝技術,避免讓CPU做大量的資料拷貝任務,減少不必要的拷貝,或者讓别的元件來做這一類簡單的資料傳輸任務,讓CPU解脫出來專注于别的任務。這樣就可以讓系統資源的利用更加有效。

我們繼續回到引文中的例子,我們如何減少資料拷貝的次數呢?一個很明顯的着力點就是減少資料在核心空間和使用者空間來回拷貝,這也引入了零拷貝的一個類型:讓資料傳輸不需要經過 user space。

3 使用 mmap

我們減少拷貝次數的一種方法是調用mmap()來代替read調用:

進階必問:Linux 中的零拷貝技術是什麼?

應用程式調用mmap(),磁盤上的資料會通過DMA被拷貝的核心緩沖區,接着作業系統會把這段核心緩沖區與應用程式共享,這樣就不需要把核心緩沖區的内容往使用者空間拷貝。應用程式再調用write(),作業系統直接将核心緩沖區的内容拷貝到socket緩沖區中,這一切都發生在核心态,最後,socket緩沖區再把資料發到網卡去。同樣的,看圖很簡單:

進階必問:Linux 中的零拷貝技術是什麼?

mmap

使用mmap替代read很明顯減少了一次拷貝,當拷貝資料量很大時,無疑提升了效率。但是使用mmap是有代價的。當你使用mmap時,你可能會遇到一些隐藏的陷阱。例如,當你的程式map了一個檔案,但是當這個檔案被另一個程序截斷(truncate)時, write系統調用會因為通路非法位址而被SIGBUS信号終止。SIGBUS信号預設會殺死你的程序并産生一個coredump,如果你的伺服器這樣被中止了,那會産生一筆損失。

通常我們使用以下解決方案避免這種問題:

1. 為SIGBUS信号建立信号處理程式

當遇到SIGBUS信号時,信号處理程式簡單地傳回,write系統調用在被中斷之前會傳回已經寫入的位元組數,并且errno會被設定成success,但是這是一種糟糕的處理辦法,因為你并沒有解決問題的實質核心。

2. 使用檔案租借鎖

通常我們使用這種方法,在檔案描述符上使用租借鎖,我們為檔案向核心申請一個租借鎖,當其它程序想要截斷這個檔案時,核心會向我們發送一個實時的RTSIGNALLEASE信号,告訴我們核心正在破壞你加持在檔案上的讀寫鎖。這樣在程式通路非法記憶體并且被SIGBUS殺死之前,你的write系統調用會被中斷。write會傳回已經寫入的位元組數,并且置errno為success。

我們應該在mmap檔案之前加鎖,并且在操作完檔案後解鎖:

if(fcntl(diskfd, F\_SETSIG, RT\_SIGNAL\_LEASE) == -1) {   perror("kernel lease set signal");return -1;}/* l\_type can be F\_RDLCK F\_WRLCK  加鎖*//* l\_type can be  F\_UNLCK 解鎖*/if(fcntl(diskfd, F\_SETLEASE, l\_type)){perror("kernel lease set type");return -1;}      

4 使用sendfile

從2.1版核心開始,Linux引入了sendfile來簡化操作:

#include<sys/sendfile.h>ssize\_t sendfile(int out\_fd, int in\_fd, off\_t *offset, size_t count);      

系統調用sendfile()在代表輸入檔案的描述符infd和代表輸出檔案的描述符outfd之間傳送檔案内容(位元組)。描述符outfd必須指向一個套接字,而infd指向的檔案必須是可以mmap的。這些局限限制了sendfile的使用,使sendfile隻能将資料從檔案傳遞到套接字上,反之則不行。

使用sendfile不僅減少了資料拷貝的次數,還減少了上下文切換,資料傳送始終隻發生在kernel space。

進階必問:Linux 中的零拷貝技術是什麼?

sendfile系統調用過程

在我們調用sendfile時,如果有其它程序截斷了檔案會發生什麼呢?假設我們沒有設定任何信号處理程式,sendfile調用僅僅傳回它在被中斷之前已經傳輸的位元組數,errno會被置為success。如果我們在調用sendfile之前給檔案加了鎖,sendfile的行為仍然和之前相同,我們還會收到RTSIGNALLEASE的信号。

目前為止,我們已經減少了資料拷貝的次數了,但是仍然存在一次拷貝,就是頁緩存到socket緩存的拷貝。那麼能不能把這個拷貝也省略呢?

借助于硬體上的幫助,我們是可以辦到的。之前我們是把頁緩存的資料拷貝到socket緩存中,實際上,我們僅僅需要把緩沖區描述符傳到socket緩沖區,再把資料長度傳過去,這樣DMA控制器直接将頁緩存中的資料打包發送到網絡中就可以了。

總結一下,sendfile系統調用利用DMA引擎将檔案内容拷貝到核心緩沖區去,然後将帶有檔案位置和長度資訊的緩沖區描述符添加socket緩沖區去,這一步不會将核心中的資料拷貝到socket緩沖區中,DMA引擎會将核心緩沖區的資料拷貝到協定引擎中去,避免了最後一次拷貝。

進階必問:Linux 中的零拷貝技術是什麼?

帶DMA的sendfile

不過這一種收集拷貝功能是需要硬體以及驅動程式支援的。

5 使用splice

sendfile隻适用于将資料從檔案拷貝到套接字上,限定了它的使用範圍。Linux在2.6.17版本引入splice系統調用,用于在兩個檔案描述符中移動資料:

#define \_GNU\_SOURCE         /* See feature\_test\_macros(7) */#include<fcntl.h>ssize\_t splice(int fd\_in, loff\_t \*off\_in, int fd\_out, loff\_t \*off\_out, size\_t len, unsignedint flags);      

splice調用在兩個檔案描述符之間移動資料,而不需要資料在核心空間和使用者空間來回拷貝。他從fdin拷貝len長度的資料到fdout,但是有一方必須是管道裝置,這也是目前splice的一些局限性。flags參數有以下幾種取值:

SPLICEFMOVE :嘗試去移動資料而不是拷貝資料。這僅僅是對核心的一個小提示:如果核心不能從pipe移動資料或者pipe的緩存不是一個整頁面,仍然需要拷貝資料。Linux最初的實作有些問題,是以從2.6.21開始這個選項不起作用,後面的Linux版本應該會實作。

SPLICEFNONBLOCK :splice 操作不會被阻塞。然而,如果檔案描述符沒有被設定為不可被阻塞方式的 I/O ,那麼調用 splice 有可能仍然被阻塞。

SPLICEFMORE:後面的splice調用會有更多的資料。

splice調用利用了Linux提出的管道緩沖區機制, 是以至少一個描述符要為管道。

以上幾種零拷貝技術都是減少資料在使用者空間和核心空間拷貝技術實作的,但是有些時候,資料必須在使用者空間和核心空間之間拷貝。這時候,我們隻能針對資料在使用者空間和核心空間拷貝的時機上下功夫了。Linux通常利用寫時複制(copy on write)來減少系統開銷,這個技術又時常稱作COW。

由于篇幅原因,本文不詳細介紹寫時複制。大概描述下就是:如果多個程式同時通路同一塊資料,那麼每個程式都擁有指向這塊資料的指針,在每個程式看來,自己都是獨立擁有這塊資料的,隻有當程式需要對資料内容進行修改時,才會把資料内容拷貝到程式自己的應用空間裡去,這時候,資料才成為該程式的私有資料。如果程式不需要對資料進行修改,那麼永遠都不需要拷貝資料到自己的應用空間裡。這樣就減少了資料的拷貝。寫時複制的内容可以再寫一篇文章了。。。

除此之外,還有一些零拷貝技術,比如傳統的Linux I/O中加上O_DIRECT标記可以直接I/O,避免了自動緩存,還有尚未成熟的fbufs技術,本文尚未覆寫所有零拷貝技術,隻是介紹常見的一些,如有興趣,可以自行研究,一般成熟的服務端項目也會自己改造核心中有關I/O的部分,提高自己的資料傳輸速率。

推薦去我的部落格閱讀更多:

1.Java JVM、集合、多線程、新特性系列教程

2.Spring MVC、Spring Boot、Spring Cloud 系列教程

3.Maven、Git、Eclipse、Intellij IDEA 系列工具教程

4.Java、後端、架構、阿裡巴巴等大廠最新面試題

生活很美好,明天見~