天天看點

Linux有問必答:nginx網絡伺服器上如何阻止特定使用者代理(UA)Linux有問必答:nginx網絡伺服器上如何阻止特定使用者代理(UA)

問題: 我注意到有一些機器人經常通路我的nginx驅動的網站,并且進行一些攻擊性的掃描,導緻消耗掉了我的網絡伺服器的大量資源。我一直嘗試着通過使用者代理符串來阻擋這些機器人。我怎樣才能在nginx網絡伺服器上阻擋掉特定的使用者代理呢?

現代網際網路滋生了大量各種各樣的惡意機器人和網絡爬蟲,比如像惡意軟體機器人、垃圾郵件程式或内容刮刀,這些惡意工具一直偷偷摸摸地掃描你的網站,幹些諸如檢測潛在網站漏洞、收獲電子郵件位址,或者隻是從你的網站偷取内容。大多數機器人能夠通過它們的“使用者代理”簽名字元串來識别。

作為第一道防線,你可以嘗試通過将這些機器人的使用者代理字元串添加入robots.txt檔案來阻止這些惡意軟體機器人通路你的網站。但是,很不幸的是,該操作隻針對那些“行為良好”的機器人,這些機器人被設計遵循robots.txt的規範。許多惡意軟體機器人可以很容易地忽略掉robots.txt,然後随意掃描你的網站。

另一個用以阻擋特定機器人的途徑,就是配置你的網絡伺服器,通過特定的使用者代理字元串拒絕要求提供内容的請求。本文就是說明如何在nginx網絡伺服器上阻擋特定的使用者代理。

Linux有問必答:nginx網絡伺服器上如何阻止特定使用者代理(UA)Linux有問必答:nginx網絡伺服器上如何阻止特定使用者代理(UA)

<a target="_blank"></a>

要配置使用者代理阻擋清單,請打開你的網站的nginx配置檔案,找到<code>server</code>定義部分。該檔案可能會放在不同的地方,這取決于你的nginx配置或linux版本(如,<code>/etc/nginx/nginx.conf</code>,<code>/etc/nginx/sites-enabled/&lt;your-site&gt;</code>,<code>/usr/local/nginx/conf/nginx.conf</code>,<code>/etc/nginx/conf.d/&lt;your-site&gt;</code>)。

<code>server {</code>

<code>listen 80 default_server;</code>

<code>server_name xmodulo.com;</code>

<code>root /usr/share/nginx/html;</code>

<code></code>

<code>....</code>

<code>}</code>

在打開該配置檔案并找到 <code>server</code> 部分後,添加以下 if 聲明到該部分内的某個地方。

<code># 大小寫敏感的比對</code>

<code>if ($http_user_agent ~ (antivirx|arian) {</code>

<code>return 403;</code>

<code>#大小寫無關的比對</code>

<code>if ($http_user_agent ~* (netcrawl|npbot|malicious)) {</code>

如你所想,這些 if 聲明使用正規表達式比對了任意不良使用者字元串,并向比對的對象傳回403 http狀态碼。<code>$http_user_agent</code>是http請求中的一個包含有使用者代理字元串的變量。‘~’操作符針對使用者代理字元串進行大小寫敏感比對,而‘~*’操作符則進行大小寫無關比對。‘|’操作符是邏輯或,是以,你可以在 if 聲明中放入衆多的使用者代理關鍵字,然後将它們全部阻擋掉。

在修改配置檔案後,你必須重新加載nginx以激活阻擋:

<code>$ sudo /path/to/nginx -s reload</code>

你可以通過使用帶有 “--user-agent” 選項的 wget 測試使用者代理阻擋。

<code>$ wget --user-agent "malicious bot" http://&lt;nginx-ip-address&gt;</code>

Linux有問必答:nginx網絡伺服器上如何阻止特定使用者代理(UA)Linux有問必答:nginx網絡伺服器上如何阻止特定使用者代理(UA)

目前為止,我已經展示了在nginx中如何阻擋一些使用者代理的http請求。如果你有許多不同類型的網絡爬蟲機器人要阻擋,又該怎麼辦呢?

由于使用者代理黑名單會增長得很大,是以将它們放在nginx的server部分不是個好點子。取而代之的是,你可以建立一個獨立的檔案,在該檔案中列出所有被阻擋的使用者代理。例如,讓我們建立/etc/nginx/useragent.rules,并定義以下面的格式定義所有被阻擋的使用者代理的圖譜。

<code>$ sudo vi /etc/nginx/useragent.rules</code>

<code>map $http_user_agent $badagent {</code>

<code>default 0;</code>

<code>~*malicious 1;</code>

<code>~*backdoor 1;</code>

<code>~*netcrawler 1;</code>

<code>~antivirx 1;</code>

<code>~arian 1;</code>

<code>~webbandit 1;</code>

與先前的配置類似,‘~*’将比對以大小寫不敏感的方式比對關鍵字,而‘~’将使用大小寫敏感的正規表達式比對關鍵字。“default 0”行所表達的意思是,任何其它檔案中未被列出的使用者代理将被允許。

接下來,打開你的網站的nginx配置檔案,找到裡面包含 http 的部分,然後添加以下行到 http 部分某個位置。

<code>http {</code>

<code>.....</code>

<code>include /etc/nginx/useragent.rules</code>

注意,該 include 聲明必須出現在 server 部分之前(這就是為什麼我們将它添加到了 http 部分裡)。

現在,打開nginx配置定義你的伺服器的部分,添加以下 if 聲明:

<code>if ($badagent) {</code>

最後,重新加載nginx。

現在,任何包含有<code>/etc/nginx/useragent.rules</code>中列出的關鍵字的使用者代理将被nginx自動禁止。

原文釋出時間:2015-05-22

本文來自雲栖合作夥伴“linux中國”

繼續閱讀