天天看点

httpclient 获取到网页内容自动判断内容编码

在“导航189”网站中编写爬虫程序中使用的httpclient 来获取网页内容,但是在获取网页内容时有编码的问题,这里介绍的一个方法是使用EntityUtils中的toString来返回网页的内容,原理是这样的,在请求的返回header中获取编码,如果没有找到返回的编码就使用默认编码来返回,代码实现如下:

调用如下:

EntityUtils 内部实现是这样的:

EntityUtils 中获取编码的方法如下: