我們可以發現搜狐新聞的新聞頁都是有規律的比如:
http://news.sohu.com/20160415/n444266195.shtml
在浏覽器中右鍵檢查元素
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyNwcTOxQzM4ETNxQDM2EDMy8CX0Vmbu4GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.jpg)
可以找到鎖定文章标題,時間,來源的标簽
那麼經過分析确定标簽可以得到下面的代碼:
Elements h = doc.select("h1[itemprop]");//标題
System.out.println(h.text());
Elements time = doc.select("div.time");//時間
System.out.println(time.text());
/*
Element source = doc.select("span[itemprop=name]").first();//來源
System.out.println(source.text());
*/
//maybe 更好
Elements source = doc.select("div[class=source]");
System.out.println(source.text());
Elements body = doc.select("div[itemprop=articleBody]");
System.out.println(body.text());
運作一下得到結果:
英媒:美防長将于15日登上航母穿越南海争議水域
2016-04-15 11:46:17
來源:環球網
【環球網報道 記者 韓梅】據英國路透社4月15日報道,美國國防部長卡特将于周五登上美國航母,穿過南海争議水域。報道稱,去年11月,卡特也有過類似舉動。在此次美菲舉行的聯合軍演中,卡特将登上的“斯坦尼斯号”航母也參與其中。 此前據美聯社報道,卡特14日在馬尼拉拜會菲律賓總統阿基諾三世,并與菲律賓國防部長加斯明舉行雙邊會議。卡特在會後的記者會上說:“上個月我們在南海展開了聯合海事巡邏。”他還表示,在15日的年度肩并肩演習結束後,将派275名美軍人員暫時留在菲律賓。此外,5架A-10C雷霆攻擊機,以及4架其他型号的戰機也将繼續留在菲律賓,直到4月底才會撤離。
每個網站的結構不一樣,建議多試一個網頁,以確定,抓取的标簽沒錯。