在“導航189”網站中編寫爬蟲程式中使用的httpclient 來擷取網頁内容,但是在擷取網頁内容時有編碼的問題,這裡介紹的一個方法是使用EntityUtils中的toString來傳回網頁的内容,原理是這樣的,在請求的傳回header中擷取編碼,如果沒有找到傳回的編碼就使用預設編碼來傳回,代碼實作如下:
調用如下:
EntityUtils 内部實作是這樣的:
EntityUtils 中擷取編碼的方法如下:
在“導航189”網站中編寫爬蟲程式中使用的httpclient 來擷取網頁内容,但是在擷取網頁内容時有編碼的問題,這裡介紹的一個方法是使用EntityUtils中的toString來傳回網頁的内容,原理是這樣的,在請求的傳回header中擷取編碼,如果沒有找到傳回的編碼就使用預設編碼來傳回,代碼實作如下:
調用如下:
EntityUtils 内部實作是這樣的:
EntityUtils 中擷取編碼的方法如下: