天天看點

[python爬蟲] 爬取圖檔無法打開或已損壞的簡單探讨

        本文主要針對python使用urlretrieve或urlopen下載下傳百度、搜狗、googto(谷歌鏡像)等圖檔時,出現"無法打開圖檔或已損壞"的問題,作者對它進行簡單的探讨。同時,作者将進一步幫你鞏固selenium自動化操作和urllib庫等知識。

        感謝朋友"露為霜"的幫助!希望以後能實作強大的圖檔爬蟲代碼~

        下面這部分selenium代碼的主要功能是:

            2.通過driver.find_element_by_xpath()函數擷取輸入框的位置;

            3.在輸入框中自動輸入搜尋關鍵詞"鄧肯",再輸入回車搜尋"鄧肯"相關圖檔;

            4.再通過find_element_by_xpath()擷取圖檔的原圖url,這裡僅擷取一張圖檔;

            5.調用urllib的urlretrieve()函數下載下傳圖檔。

        最後整個動态效果如下圖所示,但是圖檔卻無法顯示:

[python爬蟲] 爬取圖檔無法打開或已損壞的簡單探讨

        代碼如下:

       1.urllib.urlretrieve()

       通過urlretrieve()函數可設定下載下傳進度發現圖檔是一下子就加載的。這裡給大家鞏固這個urlretrieve函數的方法和python時間命名方式,代碼如下:

        發現該圖檔的大小僅為168位元組,其中輸出結果如下圖,擷取的url位址如下:

[python爬蟲] 爬取圖檔無法打開或已損壞的簡單探讨

       2.urllib2.urlopen()

       換個方法urlopen()實作,同時設定消息頭試試,并輸出資訊和圖檔大小。

        傳回内容是”httperror: http error 403: forbidden“,selenium打開如下:

[python爬蟲] 爬取圖檔無法打開或已損壞的簡單探讨

        其中403錯誤介紹如下,伺服器拒絕服務:

[python爬蟲] 爬取圖檔無法打開或已損壞的簡單探讨

換成我的部落格圖像那張圖是能下載下傳的,同時設定消息頭和代理,推薦一篇文章:

        主要參考三篇文章和自己的一些想法:

        第一個方法 f12審查元素和src的騙局

        這是感謝"露為霜"同學提供的方法,如果你通過浏覽器點開百度搜尋"鄧肯"的第一張圖檔,複制網址後,會發現圖檔真實的位址為:

        此時你再分析百度搜尋頁面,你會發現"f12審查元素和擷取src元素的行為欺騙了你",正是因為它倆定位到了錯誤的圖檔連結。而真實的url是在"ul/li/"中的"data-objurl"屬性中。

[python爬蟲] 爬取圖檔無法打開或已損壞的簡單探讨

        運作代碼成功爬取了9張圖檔,顯然成功了!雖然最後報錯:ioerror: [errno socket error] [errno 10060] ,隻爬取了9張圖檔,但是至少可以正确解決了該問題。運作截圖如下所示:

[python爬蟲] 爬取圖檔無法打開或已損壞的簡單探讨

        同樣的道理,googto的elem.get_attribute("src")改成elem.get_attribute("data-imgurl")即可擷取正确的圖檔位址并正确下載下傳。

        ps:百度圖檔動态加載的功能是非常強大的,當你的滑鼠拖動時,它會自動增加新的頁面,在<ul>中包括新的一批<li>張圖檔,這也是不同于其它網頁在右下角點選"1、2、3..."翻頁的,可能也會成為海量圖檔爬取的又一難點。

        第二個方法 selenium使用右鍵另存為

        還是使用老的連結,雖然讀取是無法顯示的,但嘗試通過selenium的滑鼠右鍵另存為功能,看能不能爬取成功。

        運作效果如下圖所示。雖然它能實作右鍵另存為,但是需要手動點選儲存,其原因是selenium無法操作作業系統級的對話框,又說"set profile"代碼段的設定能解決問題的并不靠譜。通過鈎子hook函數可以實作,以前做過c#的鈎子自動點選功能,但是想到下載下傳圖檔需要彈出并點選無數次對話框就很蛋疼,是以該方法并不好!

        鈎子函數java版本結合robot可以閱讀下面這篇文章:

[python爬蟲] 爬取圖檔無法打開或已損壞的簡單探讨
[python爬蟲] 爬取圖檔無法打開或已損壞的簡單探讨

第三個方法 通過selenium自動點選百度的下載下傳按鈕

        其實作過程就是通過selenium找到"下載下傳"按鈕,再點選或擷取連結即可。

        同時,這裡需要強調百度動态加載,可以通過selenium模拟滾動視窗實作,也參考上面文章。其中核心代碼為:

        driver.maximize_window()

        pos += i*500 

 # 每次下滾500

        js = "document.documentelement.scrolltop=%d" % pos

        driver.execute_script(js)

       第四個方法 百度圖檔解碼下載下傳及線程實作

       最近看了一些優秀的文章,真心感覺自己縷蟻一般,太過渺小,還有好多知識需要學習啊!加油~而且不知道現在自己做的這些東西是否有用?心理的幾個想法一直還未實作,挺擔心的。還是自己部落格描述那句話:

       無知的自己 · 樂觀的面對 · 謙遜的學習 · 低調的前行 · 更要會生活

       希望文章對你有所幫助,如果有錯誤或不足之處,還請海涵~