epoll模型詳解

1.epoll模型原理

epoll是在2.6核心中提出的，是之前的select和poll的增強版本。相對于select和poll來說，epoll更加靈活，沒有描述符限制。epoll使用一個檔案描述符管理多個描述符，将使用者關系的檔案描述符的事件存放到核心的一個事件表中，這樣在使用者空間和核心空間的copy隻需一次，epoll檔案描述符使用紅黑樹管理，搜尋高效。

1.int epoll_create(int size);

　　建立一個epoll的句柄，size用來告訴核心這個監聽的數目一共有多大。這個參數不同于select()中的第一個參數，給出最大監聽的fd+1的值。需要注意的是，當建立好epoll句柄後，它就是會占用一個fd值，在linux下如果檢視/proc/程序id/fd/，是能夠看到這個fd的，是以在使用完epoll後，必須調用close()關閉，否則可能導緻fd被耗盡。

2.int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

　　epoll的事件注冊函數，它不同與select()是在監聽事件時告訴核心要監聽什麼類型的事件epoll的事件注冊函數，它不同與select()是在監聽事件時告訴核心要監聽什麼類型的事件，而是在這裡先注冊要監聽的事件類型。第一個參數是epoll_create()的傳回值，第二個參數表示動作，用三個宏來表示：

EPOLL_CTL_ADD：注冊新的fd到epfd中；

EPOLL_CTL_MOD：修改已經注冊的fd的監聽事件；

EPOLL_CTL_DEL：從epfd中删除一個fd；

第三個參數是需要監聽的fd，第四個參數是告訴核心需要監聽什麼事，struct epoll_event結構如下：

struct epoll_event {

__uint32_t events; /* Epoll events */

epoll_data_t data; /* User data variable */

};

events可以是以下幾個宏的集合：

EPOLLIN ：表示對應的檔案描述符可以讀（包括對端SOCKET正常關閉）；

EPOLLOUT：表示對應的檔案描述符可以寫；

EPOLLPRI：表示對應的檔案描述符有緊急的資料可讀（這裡應該表示有帶外資料到來）；

EPOLLERR：表示對應的檔案描述符發生錯誤；

EPOLLHUP：表示對應的檔案描述符被挂斷；

EPOLLET：将EPOLL設為邊緣觸發(Edge Triggered)模式，這是相對于水準觸發(Level Triggered)來說的。

EPOLLONESHOT：隻監聽一次事件，當監聽完這次事件之後，如果還需要繼續監聽這個socket的話，需要再次把這個socket加入到EPOLL隊列裡

3.int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

　　等待事件的産生，類似于select()調用。參數events用來從核心得到事件的集合，maxevents告之核心這個events有多大，這個maxevents的值不能大于建立epoll_create()時的size，參數timeout是逾時時間（毫秒，0會立即傳回，-1将不确定，也有說法說是永久阻塞）。該函數傳回需要處理的事件數目，如傳回0表示已逾時。

2.epoll工作流程

1.epoll_create()系統調用。此調用傳回一個句柄，之後所有的使用都依靠這個句柄來辨別。

2.epoll_ctl()系統調用。通過此調用向epoll對象中添加、删除、修改感興趣的事件，傳回0成功，傳回-1失敗。

3.epoll_wait()系統調用。通過此調用收集收集在epoll監控中已經發生的事件

3.使用執行個體

引用一個echo的代碼實作

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>

#include <netinet/in.h>
#include <sys/socket.h>
#include <arpa/inet.h>
#include <sys/epoll.h>
#include <unistd.h>
#include <sys/types.h>

#define IPADDRESS   "127.0.0.1"
#define PORT        8787
#define MAXSIZE     1024
#define LISTENQ     5
#define FDSIZE      1000
#define EPOLLEVENTS 100

//函數聲明
//建立套接字并進行綁定
static int socket_bind(const char* ip,int port);
//IO多路複用epoll
static void do_epoll(int listenfd);
//事件處理函數
static void
handle_events(int epollfd,struct epoll_event *events,int num,int listenfd,char *buf);
//處理接收到的連接配接
static void handle_accpet(int epollfd,int listenfd);
//讀處理
static void do_read(int epollfd,int fd,char *buf);
//寫處理
static void do_write(int epollfd,int fd,char *buf);
//添加事件
static void add_event(int epollfd,int fd,int state);
//修改事件
static void modify_event(int epollfd,int fd,int state);
//删除事件
static void delete_event(int epollfd,int fd,int state);

int main(int argc,char *argv[])
{
    int  listenfd;
    listenfd = socket_bind(IPADDRESS,PORT);
    listen(listenfd,LISTENQ);
    do_epoll(listenfd);
    return 0;
}

static int socket_bind(const char* ip,int port)
{
    int  listenfd;
    struct sockaddr_in servaddr;
    listenfd = socket(AF_INET,SOCK_STREAM,0);
    if (listenfd == -1)
    {
        perror("socket error:");
        exit(1);
    }
    bzero(&servaddr,sizeof(servaddr));
    servaddr.sin_family = AF_INET;
    inet_pton(AF_INET,ip,&servaddr.sin_addr);
    servaddr.sin_port = htons(port);
    if (bind(listenfd,(struct sockaddr*)&servaddr,sizeof(servaddr)) == -1)
    {
        perror("bind error: ");
        exit(1);
    }
    return listenfd;
}

static void do_epoll(int listenfd)
{
    int epollfd;
    struct epoll_event events[EPOLLEVENTS];
    int ret;
    char buf[MAXSIZE];
    memset(buf,0,MAXSIZE);
    //建立一個描述符
    epollfd = epoll_create(FDSIZE);
    //添加監聽描述符事件
    add_event(epollfd,listenfd,EPOLLIN);
    for ( ; ; )
    {
        //擷取已經準備好的描述符事件
        ret = epoll_wait(epollfd,events,EPOLLEVENTS,-1);
        handle_events(epollfd,events,ret,listenfd,buf);
    }
    close(epollfd);
}

static void
handle_events(int epollfd,struct epoll_event *events,int num,int listenfd,char *buf)
{
    int i;
    int fd;
    //進行選好周遊
    for (i = 0;i < num;i++)
    {
        fd = events[i].data.fd;
        //根據描述符的類型和事件類型進行處理
        if ((fd == listenfd) &&(events[i].events & EPOLLIN))
            handle_accpet(epollfd,listenfd);
        else if (events[i].events & EPOLLIN)
            do_read(epollfd,fd,buf);
        else if (events[i].events & EPOLLOUT)
            do_write(epollfd,fd,buf);
    }
}
static void handle_accpet(int epollfd,int listenfd)
{
    int clifd;
    struct sockaddr_in cliaddr;
    socklen_t  cliaddrlen;
    clifd = accept(listenfd,(struct sockaddr*)&cliaddr,&cliaddrlen);
    if (clifd == -1)
        perror("accpet error:");
    else
    {
        printf("accept a new client: %s:%d\n",inet_ntoa(cliaddr.sin_addr),cliaddr.sin_port);
        //添加一個客戶描述符和事件
        add_event(epollfd,clifd,EPOLLIN);
    }
}

static void do_read(int epollfd,int fd,char *buf)
{
    int nread;
    nread = read(fd,buf,MAXSIZE);
    if (nread == -1)
    {
        perror("read error:");
        close(fd);
        delete_event(epollfd,fd,EPOLLIN);
    }
    else if (nread == 0)
    {
        fprintf(stderr,"client close.\n");
        close(fd);
        delete_event(epollfd,fd,EPOLLIN);
    }
    else
    {
        printf("read message is : %s",buf);
        //修改描述符對應的事件，由讀改為寫
        modify_event(epollfd,fd,EPOLLOUT);
    }
}

static void do_write(int epollfd,int fd,char *buf)
{
    int nwrite;
    nwrite = write(fd,buf,strlen(buf));
    if (nwrite == -1)
    {
        perror("write error:");
        close(fd);
        delete_event(epollfd,fd,EPOLLOUT);
    }
    else
        modify_event(epollfd,fd,EPOLLIN);
    memset(buf,0,MAXSIZE);
}

static void add_event(int epollfd,int fd,int state)
{
    struct epoll_event ev;
    ev.events = state;
    ev.data.fd = fd;
    epoll_ctl(epollfd,EPOLL_CTL_ADD,fd,&ev);
}

static void delete_event(int epollfd,int fd,int state)
{
    struct epoll_event ev;
    ev.events = state;
    ev.data.fd = fd;
    epoll_ctl(epollfd,EPOLL_CTL_DEL,fd,&ev);
}

static void modify_event(int epollfd,int fd,int state)
{
    struct epoll_event ev;
    ev.events = state;
    ev.data.fd = fd;
    epoll_ctl(epollfd,EPOLL_CTL_MOD,fd,&ev);
}

4.總結讨論

1.邊緣觸發與水準觸發

epoll對檔案描述符的操作有兩種模式：LT（level trigger）和ET（edge trigger）。LT模式是預設模式，LT模式與ET模式的差別如下：

　　LT模式：當epoll_wait檢測到描述符事件發生并将此事件通知應用程式，應用程式可以不立即處理該事件。下次調用epoll_wait時，會再次響應應用程式并通知此事件。

　　ET模式：當epoll_wait檢測到描述符事件發生并将此事件通知應用程式，應用程式必須立即處理該事件。如果不處理，下次調用epoll_wait時，不會再次響應應用程式并通知此事件。

　　ET模式在很大程度上減少了epoll事件被重複觸發的次數，是以效率要比LT模式高。epoll工作在ET模式的時候，必須使用非阻塞套接口，以避免由于一個檔案句柄的阻塞讀/阻塞寫操作把處理多個檔案描述符的任務餓死。

2.修改程序打開最大檔案描述符限制

使用epoll模型處理大量檔案描述符時必定出超過系統預設單程序允許最大打開檔案描述符1024，可以使用shell指令ulimit和系統調用setrlimit修改

ulimit -n 65535

/* 設定每個程序允許打開的最大檔案數 */
struct rlimit rt;
rt.rlim_max = 65535;
rt.rlim_cur = 65535;
if (setrlimit(RLIMIT_NOFILE, &rt) == -1) perror("setrlimit");
else printf("setrlimit sucess\n");

3.epoll為何高效

當某一程序調用epoll_create方法時，Linux核心會建立一個eventpoll結構體，這個結構體中有兩個成員與epoll的使用方式密切相關。eventpoll結構體如下所示：

struct eventpoll
{
    ....
    /*紅黑樹的根節點，這顆樹中存儲着所有添加到epoll中的需要監控的事件*/
    struct rb_root rbr;
    /*雙連結清單中則存放着将要通過epoll_wait傳回給使用者的滿足條件的事件*/
    struct list_head rdlist;
    ....
};

每一個epoll對象都有一個獨立的eventpoll結構體，用于存放通過epoll_ctl方法向epoll對象中添加進來的事件。這些事件都會挂載在紅黑樹中，如此，重複添加的事件就可以通過紅黑樹而高效的識别出來(紅黑樹的插入時間效率是lgn，其中n為樹的高度)。

而所有添加到epoll中的事件都會與裝置(網卡)驅動程式建立回調關系，也就是說，當相應的事件發生時會調用這個回調方法。這個回調方法在核心中叫ep_poll_callback,它會将發生的事件添加到rdlist雙連結清單中。

在epoll中，對于每一個事件，都會建立一個epitem結構體，如下所示：

struct epitem
{
    struct rb_node rbn;//紅黑樹節點
    struct list_head rdllink;//雙向連結清單節點
    struct epoll_filefd ffd; //事件句柄資訊
    struct eventpoll *ep; //指向其所屬的eventpoll對象
    struct epoll_event event; //期待發生的事件類型
}

當調用epoll_wait檢查是否有事件發生時，隻需要檢查eventpoll對象中的rdlist雙連結清單中是否有epitem元素即可。如果rdlist不為空，則把發生的事件複制到使用者态，同時将事件數量傳回給使用者。

epoll模型詳解

1.epoll模型原理

2.epoll工作流程

3.使用執行個體

4.總結讨論

繼續閱讀

HDU 5344 MZL's xor

UVA 590 Always on the run

FZU 1978 Repair the brackets

UVA 10344- 23 out of 5

ZOJ 3935 2016

POJ 2115 C Looooops

HDU 5381 The sum of gcd

ZOJ 1104 Leaps Tall Buildings

ZOJ 3700 Ever Dream

HDU 2821 Pusher

ZOJ 1199 Point of Intersection

UVA 1401 Remember the Word

UVA 620 Cellular Structure

ZOJ 2748 Free Kick

CSU 1567 Reverse Rot

UVA 519 Puzzle (II)