天天看點

Nginx接入層限流降級方案

Nginx 接入層限流方案

     接入層通常指請求的入口,該層的主要目的有:負載均衡、非法請求過濾、請求聚合、緩存、降級、限流、A/B測試、伺服器品質監控等等。

     根據具體業務場景,限流措施我們選用Nginx 自帶的兩個子產品:連接配接數限流子產品ngx_http_limit_conn_module 和漏桶算法實作請求限流子產品ngx_http_limit_req_module

     limit_conn用來對某個KEY對應的總的網絡連接配接數進行限流,可以按照如IP、域名次元進行限流。limit_req用來對某個KEY對應的請求的平均速率進行限流,并有兩種用法:平滑模式(delay)和允許突發模式(nodelay)。

ngx_http_limit_conn_module

    limit_conn是對某個KEY對應的總的網絡連接配接數進行限流。可以按照IP來限制IP次元的總連接配接數,或者按照服務域名來限制某個域名的總連接配接數。但是記住不是每一個請求連接配接都會被計數器統計,隻有那些被Nginx處理的且已經讀取了整個請求頭的請求連接配接才會被計數器統計。

http {

#Test ngx_http_limit_conn_module

    limit_conn_zone $binary_remote_addr zone=addr:10m;

    limit_conn_log_level error;

    limit_conn_status 508;

#server

    server {

        listen       80;

        server_name  10.6.8.123;

        server_name_in_redirect off;

        fastcgi_intercept_errors on;

        index index.htm index.html;

        access_log  logs/10.6.8.123_access.log access ; 

        location /limit {

            limit_conn addr 2;

        alias   /tmp/;

        }

     }

}

limit_conn:要配置存放KEY和計數器的共享記憶體區域和指定KEY的最大連接配接數;此處指定的最大連接配接數是1,表示Nginx最多同時并發處理2個連接配接;

limit_conn_zone:用來配置限流KEY、及存放KEY對應資訊的共享記憶體區域大小;此處的KEY是“$binary_remote_addr”其表示IP位址,也可以使用如$server_name作為KEY來限制域名級别的最大連接配接數;

limit_conn_status:配置被限流後傳回的狀态碼,預設傳回503;

limit_conn_log_level:配置記錄被限流後的日志級别,預設error級别。

limit_conn的主要執行過程如下所示:

1、請求進入後首先判斷目前limit_conn_zone中相應KEY的連接配接數是否超出了配置的最大連接配接數;

2.1、如果超過了配置的最大大小,則被限流,傳回limit_conn_status定義的錯誤狀态碼;

2.2、否則相應KEY的連接配接數加1,并注冊請求處理完成的回調函數;

3、進行請求處理;

4、在結束請求階段會調用注冊的回調函數對相應KEY的連接配接數減1。

limt_conn可以限流某個KEY的總并發/請求數,KEY可以根據需要變化。

通過ab測試工具測試:ab -n 5 -c 5 http://10.6.8.123/limit/ 

按照IP限制并發連接配接數配置示例:

首先定義IP緯度的限流區域:

limit_conn_zone $binary_remote_addr zone=perip:10m;

接着在要限流的location中添加限流邏輯:

location /limit {

     limit_conn perip 2;

     alias   /tmp/;

使用AB測試工具進行測試,并發數為5個,總的請求數為5個:

将得到如下access.log輸出:

[08/Jun/2016:20:10:51+0800] [1465373451.802] 200

[08/Jun/2016:20:10:51+0800] [1465373451.803] 200

[08/Jun/2016:20:10:51 +0800][1465373451.803] 503

此處我們把access log格式設定為log_format main  '[$time_local] [$msec] $status';分别是“日期 日期秒/毫秒值 響應狀态碼”。

如果被限流了,則在error.log中會看到類似如下的内容:

2016/06/08

20:10:51 [error] 5662#0: *5limiting connections by zone "perip",

client: 127.0.0.1, server: _,request: "GET /limit HTTP/1.0", host:

"localhost"

ngx_http_limit_req_module

limit_req是漏桶算法實作,用于對指定KEY對應的請求進行限流,比如按照IP次元限制請求速率。

配置示例:

    limit_req_zone $binary_remote_addr zone=one:10m rate=1r/s;

    limit_req_log_level error;

    limit_req_status 503;

    ...

    location /limit {

        limit_req zone=one burst=5 nodelay;

    }

limit_req:配置限流區域、桶容量(突發容量,預設0)、是否延遲模式(預設延遲);

limit_req_zone:配置限流KEY、及存放KEY對應資訊的共享記憶體區域大小、固定請求速率;此處指定的KEY是“$binary_remote_addr”表示IP位址;固定請求速率使用rate參數配置,支援10r/s和60r/m,即每秒10個請求和每分鐘60個請求,不過最終都會轉換為每秒的固定請求速率(10r/s為每100毫秒處理一個請求;60r/m,即每1000毫秒處理一個請求)。

注意使用$binary_remote_addr ,此變量在32位伺服器上面占用32位元組,在64 位伺服器上占用64位元組,是以,前面設定10m的zone,在32位伺服器上面就能夠容納320000個狀态,在64位伺服器上面就能容納160000個狀态。

limit_req的主要執行過程如下所示:

1、請求進入後首先判斷最後一次請求時間相對于目前時間(第一次是0)是否需要限流,如果需要限流則執行步驟2,否則執行步驟3;

2.1、如果沒有配置桶容量(burst),則桶容量為0;按照固定速率處理請求;如果請求被限流,則直接傳回相應的錯誤碼(預設503);

2.2、如果配置了桶容量(burst>0)且延遲模式(沒有配置nodelay);如果桶滿了,則新進入的請求被限流;如果沒有滿則請求會以固定平均速率被處理(按照固定速率并根據需要延遲處理請求,延遲使用休眠實作);

2.3、如果配置了桶容量(burst>0)且非延遲模式(配置了nodelay);不會按照固定速率處理請求,而是允許突發處理請求;如果桶滿了,則請求被限流,直接傳回相應的錯誤碼;

3、如果沒有被限流,則正常處理請求;

4、Nginx會在相應時機進行選擇一些(3個節點)限流KEY進行過期處理,進行記憶體回收。

場景2.1測試

首先定義IP次元的限流區域:

limit_req_zone $binary_remote_addr zone=test:10m rate=500r/s;

限制為每秒500個請求,固定平均速率為2毫秒一個請求。

    limit_req zone=test;

    echo "123";

即桶容量為0(burst預設為0),且延遲模式。

使用AB測試工具進行測試,并發數為2個,總的請求數為10個:

ab -n 10 -c 2 http://localhost/limit

[08/Jun/2016:20:25:56+0800] [1465381556.410] 200

[08/Jun/2016:20:25:56 +0800][1465381556.410] 503

[08/Jun/2016:20:25:56 +0800][1465381556.411] 503

[08/Jun/2016:20:25:56+0800] [1465381556.411] 200

[08/Jun/2016:20:25:56 +0800][1465381556.412] 503

雖然每秒允許500個請求,但是因為桶容量為0,是以流入的請求要麼被處理要麼被限流,無法延遲處理;另外平均速率在2毫秒左右,比如1465381556.410和1465381556.411被處理了;有朋友會說這固定平均速率不是1毫秒嘛,其實這是因為實作算法沒那麼精準造成的。

如果被限流在error.log中會看到如下内容:

20:25:56 [error] 6130#0: *1962limiting requests, excess: 1.000 by zone

"test", client: 127.0.0.1,server: _, request: "GET /limit HTTP/1.0",

host:"localhost"

如果被延遲了在error.log(日志級别要INFO級别)中會看到如下内容:

2016/06/10

09:05:23 [warn] 9766#0: *97021delaying request, excess: 0.368, by zone

場景2.2測試

limit_req_zone $binary_remote_addr zone=test:10m rate=2r/s;

為了友善測試設定速率為每秒2個請求,即固定平均速率是500毫秒一個請求。

    limit_req zone=test burst=3;

固定平均速率為500毫秒一個請求,通容量為3,如果桶滿了新的請求被限流,否則可以進入桶中排隊并等待(實作延遲模式)。

為了看出限流效果我們寫了一個req.sh腳本:

ab -c 6 -n 6 http://localhost/limit

sleep 0.3

首先進行6個并發請求6次URL,然後休眠300毫秒,然後再進行6個并發請求6次URL;中間休眠目的是為了能跨越2秒看到效果,如果看不到如下的效果可以調節休眠時間。

[09/Jun/2016:08:46:43+0800] [1465433203.959] 200

[09/Jun/2016:08:46:43 +0800][1465433203.959] 503

[09/Jun/2016:08:46:43 +0800][1465433203.960] 503

[09/Jun/2016:08:46:44+0800] [1465433204.450] 200

[09/Jun/2016:08:46:44+0800] [1465433204.950] 200

[09/Jun/2016:08:46:45 +0800][1465433205.453] 200

[09/Jun/2016:08:46:45 +0800][1465433205.766] 503

[09/Jun/2016:08:46:45 +0800][1465433205.767] 503

[09/Jun/2016:08:46:45+0800] [1465433205.950] 200

[09/Jun/2016:08:46:46+0800] [1465433206.451] 200

[09/Jun/2016:08:46:46+0800] [1465433206.952] 200

桶容量為3,即桶中在時間視窗内最多流入3個請求,且按照2r/s的固定速率處理請求(即每隔500毫秒處理一個請求);桶計算時間視窗(1.5秒)=速率(2r/s)/桶容量(3),也就是說在這個時間視窗内桶最多暫存3個請求。是以我們要以目前時間往前推1.5秒和1秒來計算時間視窗内的總請求數;另外因為預設是延遲模式,是以時間窗内的請求要被暫存到桶中,并以固定平均速率處理請求:

第一輪:有4個請求處理成功了,按照漏桶桶容量應該最多3個才對;這是因為計算算法的問題,第一次計算因沒有參考值,是以第一次計算後,後續的計算才能有參考值,是以第一次成功可以忽略;這個問題影響很小可以忽略;而且按照固定500毫秒的速率處理請求。

第二輪:因為第一輪請求是突發來的,差不多都在1465433203.959時間點,隻是因為漏桶将速率進行了平滑變成了固定平均速率(每500毫秒一個請求);而第二輪計算時間應基于1465433203.959;而第二輪突發請求差不多都在1465433205.766時間點,是以計算桶容量的時間視窗應基于1465433203.959和1465433205.766來計算,計算結果為1465433205.766這個時間點漏桶為空了,可以流入桶中3個請求,其他請求被拒絕;又因為第一輪最後一次處理時間是1465433205.453,是以第二輪第一個請求被延遲到了1465433205.950。這裡也要注意固定平均速率隻是在配置的速率左右,存在計算精度問題,會有一些偏差。

如果桶容量改為1(burst=1),執行req.sh腳本可以看到如下輸出:

09/Jun/2016:09:04:30+0800] [1465434270.362] 200

[09/Jun/2016:09:04:30 +0800][1465434270.371] 503

[09/Jun/2016:09:04:30 +0800] [1465434270.372]503

[09/Jun/2016:09:04:30 +0800][1465434270.372] 503

[09/Jun/2016:09:04:30+0800] [1465434270.864] 200

[09/Jun/2016:09:04:31 +0800][1465434271.178] 503

[09/Jun/2016:09:04:31 +0800][1465434271.179] 503

[09/Jun/2016:09:04:31+0800] [1465434271.366] 200

桶容量為1,按照每1000毫秒一個請求的固定平均速率處理請求。

場景2.3測試

為了友善測試配置為每秒2個請求,固定平均速率是500毫秒一個請求。

    limit_req zone=test burst=3 nodelay;

桶容量為3,如果桶滿了直接拒絕新請求,且每秒2最多兩個請求,桶按照固定500毫秒的速率以nodelay模式處理請求。

為了看到限流效果我們寫了一個req.sh腳本:

sleep 1

sleep 2

将得到類似如下access.log輸出:

[09/Jun/2016:14:30:11+0800] [1465453811.754] 200

[09/Jun/2016:14:30:11+0800] [1465453811.755] 200

[09/Jun/2016:14:30:11+0800] [1465453811.759] 200

[09/Jun/2016:14:30:11 +0800][1465453811.759] 503

[09/Jun/2016:14:30:12+0800] [1465453812.776] 200

[09/Jun/2016:14:30:12 +0800][1465453812.776] 503

[09/Jun/2016:14:30:12 +0800][1465453812.777] 503

[09/Jun/2016:14:30:13 +0800] [1465453813.095]503

[09/Jun/2016:14:30:13 +0800][1465453813.097] 503

[09/Jun/2016:14:30:13 +0800][1465453813.098] 503

[09/Jun/2016:14:30:13+0800] [1465453813.425] 200

[09/Jun/2016:14:30:13 +0800][1465453813.425] 503

[09/Jun/2016:14:30:13 +0800][1465453813.426] 503

[09/Jun/2016:14:30:13+0800] [1465453813.754] 200

[09/Jun/2016:14:30:13 +0800][1465453813.755] 503

[09/Jun/2016:14:30:13 +0800][1465453813.756] 503

[09/Jun/2016:14:30:15+0800] [1465453815.278] 200

[09/Jun/2016:14:30:15 +0800][1465453815.278] 503

[09/Jun/2016:14:30:15 +0800][1465453815.279] 503

[09/Jun/2016:14:30:17+0800] [1465453817.300] 200

[09/Jun/2016:14:30:17+0800] [1465453817.301] 200

[09/Jun/2016:14:30:17 +0800][1465453817.301] 503

桶容量為3(,即桶中在時間視窗内最多流入3個請求,且按照2r/s的固定速率處理請求(即每隔500毫秒處理一個請求);桶計算時間視窗(1.5秒)=速率(2r/s)/桶容量(3),也就是說在這個時間視窗内桶最多暫存3個請求。是以我們要以目前時間往前推1.5秒和1秒來計算時間視窗内的總請求數;另外因為配置了nodelay,是非延遲模式,是以允許時間窗内突發請求的;另外從本示例會看出兩個問題:

第一輪和第七輪:有4個請求處理成功了;這是因為計算算法的問題,本示例是如果2秒内沒有請求,然後接着突然來了很多請求,第一次計算的結果将是不正确的;這個問題影響很小可以忽略;

第五輪:1.0秒計算出來是3個請求;此處也是因計算精度的問題,也就是說limit_req實作的算法不是非常精準的,假設此處看成相對于2.75的話,1.0秒内隻有1次請求,是以還是允許1次請求的。

如果限流出錯了,可以配置錯誤頁面:

proxy_intercept_errors on;

recursive_error_pages on;

error_page 503 //www.jd.com/error.aspx;

limit_conn_zone/limit_req_zone定義的記憶體不足,則後續的請求将一直被限流,是以需要根據需求設定好相應的記憶體大小。

此處的限流都是單Nginx的,假設我們接入層有多個nginx,此處就存在和應用級限流相同的問題;那如何處理呢?一種解決辦法:建立一個負載均衡層将按照限流KEY進行一緻性雜湊演算法将請求哈希到接入層Nginx上,進而相同KEY的将打到同一台接入層Nginx上;另一種解決方案就是使用Nginx+Lua(OpenResty)調用分布式限流邏輯實作

贊同成為第一個贊同者