JSoup 擷取正文，自動識别頁面編碼Charset

2023-04-22 13:01:26

Â

public static String getContent(String url) throws Exception{
		HttpClient hc = new HttpClient();
		HttpMethod hm = new GetMethod(url);
		int statusCode = -1;
		byte[] result = null;
	    statusCode = hc.executeMethod(hm);
	    if(statusCode != HttpStatus.SC_OK)//å¤æè¿å
	       return "";
	    if(hm.getResponseBody()!=null){//è·åé¡µé¢æ°æ®
	      result = hm.getResponseBody();//hm.getStatusLine()ââhttpç¶æåè¯·æ±ç»æ
	    }
	    String charset = JsoupUtils.getCharset(url); //éè¿jsoupè·å¾é¡µé¢çcharset
		hm.releaseConnection();
		String data = null;
		if(result != null)              
	       data = new String(result,charset);//åç¬¦ç¼ç è®¾ç½®
		return data;
	}

[ä»£ç ] è·å¾åç¬¦é

/**
	 * è·å¾åç¬¦é
	 */
	public static String getCharset (String siteurl) throws Exception{
		URL url = new URL(siteurl);
		Document doc = Jsoup.parse(url, 6*1000);
		Elements eles = doc.select("meta[http-equiv=Content-Type]");
		Iterator<Element> itor = eles.iterator();
		while (itor.hasNext()) 
			return RegularUtils.matchCharset(itor.next().toString());
		return "gb2312";
	}

[ä»£ç ] ä½¿ç¨æ£åè¡¨è¾¾å¼è·å¾é¡µé¢åç¬¦

/**
 * è·å¾é¡µé¢åç¬¦
 */
public static String matchCharset(String content) {
	String chs = "gb2312";
	p = Pattern.compile("(?<=charset=)(.+)(?=\")");
	Matcher m = p.matcher(content);
	if (m.find())
		return m.group();
	return chs;
}

JSoup 擷取正文，自動識别頁面編碼Charset

繼續閱讀

使用Jsoup抓取百度的android apk

android Jsoup擷取網站内容（執行個體為新聞标題擷取），android網絡必學

網絡爬蟲之java jsoup解析資訊

java爬蟲-HttpClient小練習

爬蟲三：小案例模拟登陸慢慢買并擷取使用者積分

Java爬蟲庫 - Jsoup 使用

Java爬蟲項目（一）利用Jsoup爬蟲爬取天貓商品資訊

showDoc資料遷移-無資料庫權限

Python 抓取動态網頁新法

基于Crawler4j + jsoup實作爬蟲

java網絡爬蟲開發筆記（2）

使用java實作網頁爬蟲

java網絡爬蟲開發筆記

[java爬蟲]爬蟲方法與基礎網頁爬取,資料篩選.爬取方法main方法爬取的網站源碼篩選方法實際資料篩選源碼以及所用的包結束

使用xpath實作document.querySelector樣式選擇器進行html解析（一）：将html轉成xml使用xpath實作document.querySelector樣式選擇器進行html解析（二）：擴充一下xpath以便支援正則

如何為工業客戶建構低成本的PLC資料采集系統？