天天看點

如何利用Java爬取網站資料?

作者:黑馬程式員

1.Jsoup介紹

  - 官網文檔:https://jsoup.org

  - Jsoup 是一款Java 的HTML解析器,可直接解析某個URL位址、HTML文本内容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作資料。

  2. Jsoup快速入門

  - 擷取網頁标題

  String url = "https://search.jd.com/Search?keyword=手機&wq=手機&page=1";
  Document document = Jsoup.connect(url).get();
  String title = document.select("title").text();
  System.out.println(title);
  ```           

  - 運作效果:手機 - 商品搜尋 - 京東

  3. 網站資料分析

  3.1 分析網站的通路位址

  - 以京東商城為例,商品分頁清單的url位址,需要帶如下幾個參數,是以,在發送http請求時,需要攜帶正确的參數。

  - URL:https://search.jd.com/Search?keyword=手機&wq=手機&page=1

  3.2 分析網站的頁面結構

  - 通過浏覽器的開發者工具,可以分析出頁面中我們需要的html結構。

<img src="assets/image-20220717171103097.png" alt="image-20220717171103097" style="zoom:67%;" />           

- 可以看出,我們需要的商品資料,封裝在一個id=J_goodsList的div标簽中,我們可以友善的通過DOM解析出這塊資料。

  4. 實戰實作過程

  - 擷取第1頁的商品基本資料

public static void main(String[] args) throws Exception {
    //第1頁位址
    String url = "https://search.jd.com/Search?keyword=手機&wq=手機&page=1";
    //發送http請求
    Document document = Jsoup.connect(url).get();
    //在id=J_goodsList的div下,擷取所有帶有data-sku屬性的li标簽
    Elements lis = document.select("div[id=J_goodsList] li[data-sku]");
    lis.forEach(
            li -> {
                //擷取商品sku
                String sku = li.attr("data-sku");
                //擷取商品name
                String name = li.select("div[class='p-name p-name-type-2'] a em").text();
                //擷取商品圖檔位址
                String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img");
               
                System.out.println(String.format("%s, %s, %s", sku, name, img));
            }
    );
}           

  - 效果預覽

如何利用Java爬取網站資料?

  - 改造為分頁擷取

public static void main(String[] args) throws Exception {
    //第N頁位址
    String url = "https://search.jd.com/Search?keyword=手機&wq=手機&page=" + i;
    //發送http請求
    Document document = Jsoup.connect(url).get();
    //在id=J_goodsList的div下,擷取所有帶有data-sku屬性的li标簽
    Elements lis = document.select("div[id=J_goodsList] li[data-sku]");
    lis.forEach(
            li -> {
                //擷取商品sku
                String sku = li.attr("data-sku");
                //擷取商品name
                String name = li.select("div[class='p-name p-name-type-2'] a em").text();
                //擷取商品圖檔位址
                String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img");

                System.out.println(String.format("%s, %s, %s", sku, name, img));
            }
    );
}