本文簡要介紹了HTTP代理的原理,用執行個體展示了在Python中使用HTTP代理的多種方式。
0x00 前言
大家對HTTP代理應該都非常熟悉,它在很多方面都有着極為廣泛的應用。HTTP代理分為正向代理和反向代理兩種,後者一般用于将防火牆後面的服務提供給使用者通路或者進行負載均衡,典型的有Nginx、HAProxy等。本文所讨論的是正向代理。
HTTP代理最常見的用途是用于網絡共享、網絡加速和網絡限制突破等。此外,HTTP代理也常用于Web應用調試、Android/IOS APP 中所調用的Web API監控和分析,目前的知名軟體有Fiddler、Charles、Burp Suite和mitmproxy等。HTTP代理還可用于請求/響應内容修改,在不改變服務端的情況下為Web應用增加額外的功能或者改變應用行為等。
0x01 HTTP代理是什麼
HTTP代理本質上是一個Web應用,它和其他普通Web應用沒有根本差別。HTTP代理收到請求後,根據Header中Host字段的主機名和Get/POST請求位址綜合判斷目标主機,建立新的HTTP請求并轉發請求資料,并将收到的響應資料轉發給用戶端。
如果請求位址是絕對位址,HTTP代理采用該位址中的Host,否則使用Header中的HOST字段。做一個簡單測試,假設網絡環境如下:
- 192.168.1.2 Web伺服器
- 192.168.1.3 HTTP代理伺服器
使用telnet進行測試
$ telnet 192.168.1.3
GET / HTTP/1.0
HOST: 192.168.1.2
注意最後需要連續兩個回車,這是HTTP協定要求。完成後,可以收到 http://192.168.1.2/ 的頁面内容。下面做一下調整,GET請求時帶上絕對位址
$ telnet 192.168.1.3
GET http://httpbin.org/ip HTTP/1.0
HOST: 192.168.1.2
注意這裡同樣設定了HOST為192.168.1.2,但運作結果卻傳回了 http://httpbin.org/ip 頁面的内容,也就是公網IP位址資訊。
從上面的測試過程可以看出,HTTP代理并不是什麼很複雜的東西,隻要将原始請求發送到代理伺服器即可。在無法設定HTTP代理的情況下,對于少量Host需要走HTTP代理的場景來說,最簡單的方式就是将目标Host域名的IP指向代理伺服器,可以采取修改hosts檔案的方式來實作。
0x02 Python程式中設定HTTP代理
urllib2/urllib 代理設定
urllib2是Python标準庫,功能很強大,隻是使用起來稍微麻煩一點。在Python 3中,urllib2不再保留,遷移到了urllib子產品中。urllib2中通過ProxyHandler來設定使用代理伺服器。
proxy_handler = urllib2.ProxyHandler({\'http\': \'121.193.143.249:80\'})
opener = urllib2.build_opener(proxy_handler)
r = opener.open(\'http://httpbin.org/ip\')
print(r.read())
也可以用install_opener将配置好的opener安裝到全局環境中,這樣所有的urllib2.urlopen都會自動使用代理。
urllib2.install_opener(opener)
r = urllib2.urlopen(\'http://httpbin.org/ip\')
print(r.read())
在Python 3中,使用urllib。
proxy_handler = urllib.request.ProxyHandler({\'http\': \'http://121.193.143.249:80/\'})
opener = urllib.request.build_opener(proxy_handler)
r = opener.open(\'http://httpbin.org/ip\')
print(r.read())
requests 代理設定
requests是目前最優秀的HTTP庫之一,也是我平時構造http請求時使用最多的庫。它的API設計非常人性化,使用起來很容易上手。給requests設定代理很簡單,隻需要給proxies設定一個形如
{\'http\': \'x.x.x.x:8080\', \'https\': \'x.x.x.x:8080\'}
的參數即可。其中http和https互相獨立。
In [5]: requests.get(\'http://httpbin.org/ip\', proxies={\'http\': \'121.193.143.249:80\'}).json()
Out[5]: {\'origin\': \'121.193.143.249\'}
可以直接設定session的proxies屬性,省去每次請求都要帶上proxies參數的麻煩。
s = requests.session()
s.proxies = {\'http\': \'121.193.143.249:80\'}
print(s.get(\'http://httpbin.org/ip\').json())
0x03 HTTP_PROXY / HTTPS_PROXY 環境變量
urllib2 和 Requests 庫都能識别 HTTP_PROXY 和 HTTPS_PROXY 環境變量,一旦檢測到這些環境變量就會自動設定使用代理。這在用HTTP代理進行調試的時候非常有用,因為不用修改代碼,可以随意根據環境變量來調整代理伺服器的ip位址和端口。*nix中的大部分軟體也都支援HTTP_PROXY環境變量識别,比如curl、wget、axel、aria2c等。
$ http_proxy=121.193.143.249:80 python -c \'import requests; print(requests.get("http://httpbin.org/ip").json())\'
{u\'origin\': u\'121.193.143.249\'}
$ http_proxy=121.193.143.249:80 curl httpbin.org/ip
{
"origin": "121.193.143.249"
}
在IPython互動環境中,可能經常需要臨時性地調試HTTP請求,可以簡單通過設定
os.environ[\'http_proxy\']
增加/取消HTTP代理來實作。
In [245]: os.environ[\'http_proxy\'] = \'121.193.143.249:80\'
In [246]: requests.get("http://httpbin.org/ip").json()
Out[246]: {u\'origin\': u\'121.193.143.249\'}
In [249]: os.environ[\'http_proxy\'] = \'\'
In [250]: requests.get("http://httpbin.org/ip").json()
Out[250]: {u\'origin\': u\'x.x.x.x\'}
0x04 MITM-Proxy
MITM 源于 Man-in-the-Middle Attack,指中間人攻擊,一般在用戶端和伺服器之間的網絡中攔截、監聽和篡改資料。
mitmproxy是一款Python語言開發的開源中間人代理神器,支援SSL,支援透明代理、反向代理,支援流量錄制回放,支援自定義腳本等。功能上同Windows中的Fiddler有些類似,但mitmproxy是一款console程式,沒有GUI界面,不過用起來還算友善。使用mitmproxy可以很友善的過濾、攔截、修改任意經過代理的HTTP請求/響應資料包,甚至可以利用它的scripting API,編寫腳本達到自動攔截修改HTTP資料的目的。
# test.py
def response(flow):
flow.response.headers["BOOM"] = "boom!boom!boom!"
上面的腳本會在所有經過代理的Http響應標頭裡面加上一個名為BOOM的header。用
mitmproxy -s \'test.py\'
指令啟動mitmproxy,curl驗證結果發現的确多了一個BOOM頭。
$ http_proxy=localhost:8080 curl -I \'httpbin.org/get\'
HTTP/1.1 200 OK
Server: nginx
Date: Thu, 03 Nov 2016 09:02:04 GMT
Content-Type: application/json
Content-Length: 186
Connection: keep-alive
Access-Control-Allow-Origin: *
Access-Control-Allow-Credentials: true
BOOM: boom!boom!boom!
...
顯然mitmproxy腳本能做的事情遠不止這些,結合Python強大的功能,可以衍生出很多應用途徑。除此之外,mitmproxy還提供了強大的API,在這些API的基礎上,完全可以自己定制一個實作了特殊功能的專屬代理伺服器。
經過性能測試,發現mitmproxy的效率并不是特别高。如果隻是用于調試目的那還好,但如果要用到生産環境,有大量并發請求通過代理的時候,性能還是稍微差點。我用twisted實作了一個簡單的proxy,用于給公司内部網站增加功能、改善使用者體驗,以後有機會再和大家分享。