天天看點

httpclient 擷取到網頁内容自動判斷内容編碼

在“導航189”網站中編寫爬蟲程式中使用的httpclient 來擷取網頁内容,但是在擷取網頁内容時有編碼的問題,這裡介紹的一個方法是使用EntityUtils中的toString來傳回網頁的内容,原理是這樣的,在請求的傳回header中擷取編碼,如果沒有找到傳回的編碼就使用預設編碼來傳回,代碼實作如下:

調用如下:

EntityUtils 内部實作是這樣的:

EntityUtils 中擷取編碼的方法如下: