文章目錄
-
- ✨前言
- 🌝一、網頁分析
-
- 本文重點:自定義分辨率爬取
- 細節問題
- ✨成品展示
- 🔥投票
- 😘尾言
✨前言
本次部落客以爬取電腦桌面為例,大家仔細看過這篇博文後,都能夠照着套出來,爬取自己想爬取的桌面。
縱覽整篇文章,可能有的小夥伴看完後會覺得簡單,但是我想告訴各位的是,爬蟲之路需一步一腳印,通過爬取各種網站,來達到鍛煉思路的目的,如果之後有想要進軍JS解密等高階爬蟲的小夥伴,一定要有靈活的思路,我的話到此結束,接下來進行爬蟲講解!!!
🌝一、網頁分析
進入ZOL桌面網站
【桌面桌面】電腦桌面桌面大全_高清桌面-ZOL桌面桌面
點選電腦桌面
滑動到底部,可見有多頁,那麼有需求的小夥伴可以進行多頁爬取
點選不同頁,檢視浏覽器位址欄URL,即可得到規律,需要進行多頁爬取的拼接URL即可
本文重點:自定義分辨率爬取
随便點一個進去,展示如下頁面
可以發現,下面有一行分辨率可選擇檢視,那我們先點選,1920×1080
下圖為:1920×1080
圖檔儲存下來一看,也确實是1920×1080
那麼,如何做到自定義分辨率呢???
關鍵就在于浏覽器位址欄的URL
很明顯,URL中帶有我們需要的分辨率1920×1080
https://desk.zol.com.cn/showpic/1920x1080_117173_34.html
下面我們點選
600x900
和
2880x1800
的圖檔
# 1600x900 圖檔的URL
https://desk.zol.com.cn/showpic/1600x900_117173_34.html
# 2880x1800 圖檔的URL
https://desk.zol.com.cn/showpic/2880x1800_117173_34.html
但是這都是人家提供給我們的分辨率,那我們如果做到自定義呢???
這就是我說的,搞爬蟲的思路一定要靈活,絕對不能死闆,不然走不了多遠的,一定要勇于嘗試!!!
答案就是,我們可以在URL代替他給的分辨率,替換成我們自己想要的不就得了!😉
這是它給的
**這是我們自定義的
1000×1000
**
**儲存下來也确實是
1000×1000
**
但這還沒完呢!!!
URL中除了分辨率之外,還有什麼117173和34什麼的數字,這也是關鍵!
https://desk.zol.com.cn/showpic/1600x900_117173_34.html
**可見圖檔對應的标簽中的href屬性中有着我們熟悉的
117173
之類的數字,但是就上面的分析而言,34是怎麼來的呢? **
**我們看他提供的分辨率按鈕代碼,可見我們需要的
117173_34
**
那可能有的小夥伴就說了,既然可以在這裡獲得我們需要的,那你還分析之前的幹啥
我們點一下張圖檔可見,117173變成了117171,但是34還是一樣的,那麼經過我的測試可得出結論:後面的數字相當于一組圖檔的唯一id,是不會變的,變的是每個圖檔的id,那麼我們對于唯一id隻需要擷取一次即可,之後圖檔的URL可經過拼接得到!
但是拼接後得到的URL雖能看到圖檔,但其實這是一個靜态網頁
**看到源碼,下面
img
标簽中的
src
屬性才是圖檔真正的URL **
分析到此結束,具體看源碼注釋
細節問題
指派列印的html到html檔案中,發現
這是一個網頁編碼問題,确實是一個常見問題
檢視網頁編碼
- 方式一
- 可見網頁編碼為GBK
- 方式二 雖然兩種方式得到的編碼不一樣,但都能解決問題
是以我們爬取的時候要記得設定編碼
✨成品展示
關注後,私信我擷取源碼,不然回複不了你
🔥投票
😘尾言
我是 Code皮皮蝦,未來的日子裡會不斷更新出對大家有益的博文,期待大家的關注!!!
創作不易,如果這篇博文對各位有幫助,希望各位小夥伴可以點贊和關注我哦,感謝支援,我們下次再見~~~
分享大綱
大廠面試題專欄
Java從入門到入墳學習路線目錄索引
開源爬蟲執行個體教程目錄索引
更多精彩内容分享,請點選 Hello World (●’◡’●)