很多時候呢,我們都是讀取本地HTML檔案來進行爬蟲練手,但每次都要手打不同的HTML明顯耗時耗力;
還有些小夥伴不喜歡F12,偏偏喜歡在Pycharm中檢視HTML的源代碼;
……
難道每次都隻能“複制——建立——粘貼——儲存”一條龍服務嗎?
不不不,我們還有Python的第三方庫——
urllib
。
urllib子產品是模拟浏覽器去通路URL位址,然後拿到伺服器響應回來的資料,也就是整個HTML檔案。
代碼如下:
import urllib.request as ur
# urlopen傳回的是一個HTTPResponse對象,需使用read方法。
ret = ur.urlopen('https://www.taobao.com/').read()
print(ret)
# 寫入檔案,'wb'為寫入二進制檔案
with open('tb.html', 'wb') as f:
f.write(ret)
輸出如下:

為我心愛的女孩~~
一個佛系的部落格更新者,随手寫寫,看心情吧 (っ•̀ω•́)っ✎⁾⁾