java jsoup 登入抓取_Java+Jsoup實作網頁内容抓取

2023-06-26 18:30:37

不知不覺畢業快一年了，工作逐漸趨于平淡，從一個對程式設計了解得很少甚至完全一竅不通的小小菜，終于成為了一枚小菜，總而言之，算是入了IT這一行。這大半年馬馬虎虎做了三個項目，有安卓項目，有Java Web項目，也有Asp.Net項目，接觸到的東西太多了，自然感覺自己要學的東西越多，現在對學習方向好迷茫啊。今天人品也不行，進地鐵的時候，手機被小心被扒了，說多了都是淚啊。就在這憤恨和無聊之際，開始了我的第一篇部落格.

最近跟我同學新成立了個工作室.需要用到爬蟲技術，由于他們都沒做過，而我以前做過一些簡單的爬蟲技術(高中的時候喜歡看小說，是以自己做了個爬蟲下小說玩)。以前的實作方式是直接用URLConnection發送POST請求擷取整個網頁内容，然後自己寫正規表達式去擷取自己需要的内容，工作量有點大。于是在網上搜搜看，發現Jsoup還不錯，跟Jquery的API相差無幾。花了幾個小時看了看API和敲了幾個Demo就開始實踐了。這裡我們以糗事百科為例。

首先，我們打開IE進入糗事百科的首頁，選擇檢查元素。調整下格式，圖如下(QQ截圖，請盡情吐槽⊙▂⊙)：

java jsoup 登入抓取_Java+Jsoup實作網頁内容抓取

在上面的三張圖中，我們發現糗事百科的每一段内容都是包含在一個class="block untagged mb15 bs2"的div中的，而每個div中又包含了4個子div,其中class="author"的div用于顯示内容釋出者的資訊(包括頭像和昵稱)，class="content"的div主要用于顯示圖檔配文，class="thumb"主要是用于顯示圖檔。至于最後一個class="bar"的div則是用于顯示一些媒體分享操作欄。

知道了上面這些就好辦了。下面大家就可以敲代碼啦。`(*∩_∩*)′。

java jsoup 登入抓取_Java+Jsoup實作網頁内容抓取

繼續閱讀

java jsoup 登入抓取_Jsoup實作java模拟登陸

java jsoup 登入 抓取_Java+Jsoup實作網頁内容抓取

繼續閱讀

java jsoup 登入抓取_Java+Jsoup實作網頁内容抓取