天天看點

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

文章目錄

    • ✨前言
    • 🌝一、網頁分析
      • 本文重點:自定義分辨率爬取
      • 細節問題
    • ✨成品展示
    • 🔥投票
    • 😘尾言

✨前言

本次部落客以爬取電腦桌面為例,大家仔細看過這篇博文後,都能夠照着套出來,爬取自己想爬取的桌面。

縱覽整篇文章,可能有的小夥伴看完後會覺得簡單,但是我想告訴各位的是,爬蟲之路需一步一腳印,通過爬取各種網站,來達到鍛煉思路的目的,如果之後有想要進軍JS解密等高階爬蟲的小夥伴,一定要有靈活的思路,我的話到此結束,接下來進行爬蟲講解!!!

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

🌝一、網頁分析

進入ZOL桌面網站

【桌面桌面】電腦桌面桌面大全_高清桌面-ZOL桌面桌面

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

點選電腦桌面

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

滑動到底部,可見有多頁,那麼有需求的小夥伴可以進行多頁爬取

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

點選不同頁,檢視浏覽器位址欄URL,即可得到規律,需要進行多頁爬取的拼接URL即可

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

本文重點:自定義分辨率爬取

随便點一個進去,展示如下頁面

可以發現,下面有一行分辨率可選擇檢視,那我們先點選,1920×1080

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

下圖為:1920×1080

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

圖檔儲存下來一看,也确實是1920×1080

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

那麼,如何做到自定義分辨率呢???

關鍵就在于浏覽器位址欄的URL

很明顯,URL中帶有我們需要的分辨率1920×1080

https://desk.zol.com.cn/showpic/1920x1080_117173_34.html
           

下面我們點選

600x900

2880x1800

的圖檔

# 1600x900 圖檔的URL
https://desk.zol.com.cn/showpic/1600x900_117173_34.html 

# 2880x1800 圖檔的URL
https://desk.zol.com.cn/showpic/2880x1800_117173_34.html
           

但是這都是人家提供給我們的分辨率,那我們如果做到自定義呢???

這就是我說的,搞爬蟲的思路一定要靈活,絕對不能死闆,不然走不了多遠的,一定要勇于嘗試!!!

答案就是,我們可以在URL代替他給的分辨率,替換成我們自己想要的不就得了!😉

這是它給的

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

**這是我們自定義的

1000×1000

**

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

**儲存下來也确實是

1000×1000

**

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

但這還沒完呢!!!

URL中除了分辨率之外,還有什麼117173和34什麼的數字,這也是關鍵!

https://desk.zol.com.cn/showpic/1600x900_117173_34.html 
           

**可見圖檔對應的标簽中的href屬性中有着我們熟悉的

117173

之類的數字,但是就上面的分析而言,34是怎麼來的呢? **

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

**我們看他提供的分辨率按鈕代碼,可見我們需要的

117173_34

**

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

那可能有的小夥伴就說了,既然可以在這裡獲得我們需要的,那你還分析之前的幹啥

我們點一下張圖檔可見,117173變成了117171,但是34還是一樣的,那麼經過我的測試可得出結論:後面的數字相當于一組圖檔的唯一id,是不會變的,變的是每個圖檔的id,那麼我們對于唯一id隻需要擷取一次即可,之後圖檔的URL可經過拼接得到!

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

但是拼接後得到的URL雖能看到圖檔,但其實這是一個靜态網頁

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

**看到源碼,下面

img

标簽中的

src

屬性才是圖檔真正的URL **

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

分析到此結束,具體看源碼注釋

細節問題

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

指派列印的html到html檔案中,發現

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

這是一個網頁編碼問題,确實是一個常見問題

檢視網頁編碼

  1. 方式一
    ⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)
  2. 可見網頁編碼為GBK
    ⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)
  3. 方式二
    ⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)
    雖然兩種方式得到的編碼不一樣,但都能解決問題

是以我們爬取的時候要記得設定編碼

✨成品展示

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)

關注後,私信我擷取源碼,不然回複不了你

🔥投票

😘尾言

我是 Code皮皮蝦,未來的日子裡會不斷更新出對大家有益的博文,期待大家的關注!!!

創作不易,如果這篇博文對各位有幫助,希望各位小夥伴可以點贊和關注我哦,感謝支援,我們下次再見~~~

分享大綱

大廠面試題專欄

Java從入門到入墳學習路線目錄索引

開源爬蟲執行個體教程目錄索引

更多精彩内容分享,請點選 Hello World (●’◡’●)

⚡離譜!!!自定義分辨率圖檔爬蟲你可見過???(文末有投票)