天天看點

java jsoup 登入 抓取_Java+Jsoup實作網頁内容抓取

不知不覺畢業快一年了,工作逐漸趨于平淡,從一個對程式設計了解得很少甚至完全一竅不通的小小菜,終于成為了一枚小菜,總而言之,算是入了IT這一行。這大半年馬馬虎虎做了三個項目,有安卓項目,有Java Web項目,也有Asp.Net項目,接觸到的東西太多了,自然感覺自己要學的東西越多,現在對學習方向好迷茫啊。今天人品也不行,進地鐵的時候,手機被小心被扒了,說多了都是淚啊。就在這憤恨和無聊之際,開始了我的第一篇部落格.

最近跟我同學新成立了個工作室.需要用到爬蟲技術,由于他們都沒做過,而我以前做過一些簡單的爬蟲技術(高中的時候喜歡看小說,是以自己做了個爬蟲下小說玩)。以前的實作方式是直接用URLConnection發送POST請求擷取整個網頁内容,然後自己寫正規表達式去擷取自己需要的内容,工作量有點大。于是在網上搜搜看,發現Jsoup還不錯,跟Jquery的API相差無幾。花了幾個小時看了看API和敲了幾個Demo就開始實踐了。這裡我們以糗事百科為例。

首先,我們打開IE進入糗事百科的首頁,選擇檢查元素。調整下格式,圖如下(QQ截圖,請盡情吐槽⊙▂⊙):

java jsoup 登入 抓取_Java+Jsoup實作網頁内容抓取
java jsoup 登入 抓取_Java+Jsoup實作網頁内容抓取
java jsoup 登入 抓取_Java+Jsoup實作網頁内容抓取

在上面的三張圖中,我們發現糗事百科的每一段内容都是包含在一個class="block untagged mb15 bs2"的div中的,而每個div中又包含了4個子div,其中class="author"的div用于顯示内容釋出者的資訊(包括頭像和昵稱),class="content"的div主要用于顯示圖檔配文,class="thumb"主要是用于顯示圖檔。至于最後一個class="bar"的div則是用于顯示一些媒體分享操作欄。

知道了上面這些就好辦了。下面大家就可以敲代碼啦。`(*∩_∩*)′。