[python爬蟲] 爬取圖檔無法打開或已損壞的簡單探讨

本文主要針對python使用urlretrieve或urlopen下載下傳百度、搜狗、googto（谷歌鏡像）等圖檔時，出現"無法打開圖檔或已損壞"的問題，作者對它進行簡單的探讨。同時，作者将進一步幫你鞏固selenium自動化操作和urllib庫等知識。

感謝朋友"露為霜"的幫助！希望以後能實作強大的圖檔爬蟲代碼~

下面這部分selenium代碼的主要功能是：

2.通過driver.find_element_by_xpath()函數擷取輸入框的位置；

3.在輸入框中自動輸入搜尋關鍵詞"鄧肯"，再輸入回車搜尋"鄧肯"相關圖檔；

4.再通過find_element_by_xpath()擷取圖檔的原圖url，這裡僅擷取一張圖檔；

5.調用urllib的urlretrieve()函數下載下傳圖檔。

最後整個動态效果如下圖所示，但是圖檔卻無法顯示：

代碼如下：

1.urllib.urlretrieve()

通過urlretrieve()函數可設定下載下傳進度發現圖檔是一下子就加載的。這裡給大家鞏固這個urlretrieve函數的方法和python時間命名方式，代碼如下：

發現該圖檔的大小僅為168位元組，其中輸出結果如下圖，擷取的url位址如下：

2.urllib2.urlopen()

換個方法urlopen()實作，同時設定消息頭試試，并輸出資訊和圖檔大小。

傳回内容是”httperror: http error 403: forbidden“，selenium打開如下：

其中403錯誤介紹如下，伺服器拒絕服務：

換成我的部落格圖像那張圖是能下載下傳的，同時設定消息頭和代理，推薦一篇文章：

主要參考三篇文章和自己的一些想法：

第一個方法 f12審查元素和src的騙局

這是感謝"露為霜"同學提供的方法，如果你通過浏覽器點開百度搜尋"鄧肯"的第一張圖檔，複制網址後，會發現圖檔真實的位址為：

此時你再分析百度搜尋頁面，你會發現"f12審查元素和擷取src元素的行為欺騙了你"，正是因為它倆定位到了錯誤的圖檔連結。而真實的url是在"ul/li/"中的"data-objurl"屬性中。

運作代碼成功爬取了9張圖檔，顯然成功了！雖然最後報錯：ioerror: [errno socket error] [errno 10060] ，隻爬取了9張圖檔，但是至少可以正确解決了該問題。運作截圖如下所示：

同樣的道理，googto的elem.get_attribute("src")改成elem.get_attribute("data-imgurl")即可擷取正确的圖檔位址并正确下載下傳。

ps：百度圖檔動态加載的功能是非常強大的，當你的滑鼠拖動時，它會自動增加新的頁面，在<ul>中包括新的一批<li>張圖檔，這也是不同于其它網頁在右下角點選"1、2、3..."翻頁的，可能也會成為海量圖檔爬取的又一難點。

第二個方法 selenium使用右鍵另存為

還是使用老的連結，雖然讀取是無法顯示的，但嘗試通過selenium的滑鼠右鍵另存為功能，看能不能爬取成功。

運作效果如下圖所示。雖然它能實作右鍵另存為，但是需要手動點選儲存，其原因是selenium無法操作作業系統級的對話框，又說"set profile"代碼段的設定能解決問題的并不靠譜。通過鈎子hook函數可以實作，以前做過c#的鈎子自動點選功能，但是想到下載下傳圖檔需要彈出并點選無數次對話框就很蛋疼，是以該方法并不好！

鈎子函數java版本結合robot可以閱讀下面這篇文章：

第三個方法通過selenium自動點選百度的下載下傳按鈕

其實作過程就是通過selenium找到"下載下傳"按鈕，再點選或擷取連結即可。

同時，這裡需要強調百度動态加載，可以通過selenium模拟滾動視窗實作，也參考上面文章。其中核心代碼為：

driver.maximize_window()

pos += i*500

# 每次下滾500

js = "document.documentelement.scrolltop=%d" % pos

driver.execute_script(js)

第四個方法百度圖檔解碼下載下傳及線程實作

最近看了一些優秀的文章，真心感覺自己縷蟻一般，太過渺小，還有好多知識需要學習啊！加油~而且不知道現在自己做的這些東西是否有用？心理的幾個想法一直還未實作，挺擔心的。還是自己部落格描述那句話：

無知的自己 · 樂觀的面對 · 謙遜的學習 · 低調的前行 · 更要會生活

希望文章對你有所幫助，如果有錯誤或不足之處，還請海涵~

[python爬蟲] 爬取圖檔無法打開或已損壞的簡單探讨

繼續閱讀

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

mybatis_入門程式Mybatis入門

JS生成uuid的四種方法

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

【遞歸】高效率求2的n次幂

layui多任務上傳添加進度條

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method

在python中建立excel并寫入