天天看點

Python爬蟲進階——urllib子產品使用案例【淘寶】

很多時候呢,我們都是讀取本地HTML檔案來進行爬蟲練手,但每次都要手打不同的HTML明顯耗時耗力;

還有些小夥伴不喜歡F12,偏偏喜歡在Pycharm中檢視HTML的源代碼;

……

難道每次都隻能“複制——建立——粘貼——儲存”一條龍服務嗎?

不不不,我們還有Python的第三方庫——

urllib

urllib子產品是模拟浏覽器去通路URL位址,然後拿到伺服器響應回來的資料,也就是整個HTML檔案。

代碼如下:

import urllib.request as ur

# urlopen傳回的是一個HTTPResponse對象,需使用read方法。
ret = ur.urlopen('https://www.taobao.com/').read()
print(ret)
# 寫入檔案,'wb'為寫入二進制檔案
with open('tb.html', 'wb') as f:
    f.write(ret)
           

輸出如下:

Python爬蟲進階——urllib子產品使用案例【淘寶】

為我心愛的女孩~~

一個佛系的部落格更新者,随手寫寫,看心情吧 (っ•̀ω•́)っ✎⁾⁾