Python爬蟲進階——urllib子產品使用案例【淘寶】

2019-12-25 10:03:00

很多時候呢，我們都是讀取本地HTML檔案來進行爬蟲練手，但每次都要手打不同的HTML明顯耗時耗力；

還有些小夥伴不喜歡F12，偏偏喜歡在Pycharm中檢視HTML的源代碼；

……

難道每次都隻能“複制——建立——粘貼——儲存”一條龍服務嗎？

不不不，我們還有Python的第三方庫——

urllib

。

urllib子產品是模拟浏覽器去通路URL位址，然後拿到伺服器響應回來的資料，也就是整個HTML檔案。

代碼如下：

import urllib.request as ur

# urlopen傳回的是一個HTTPResponse對象，需使用read方法。
ret = ur.urlopen('https://www.taobao.com/').read()
print(ret)
# 寫入檔案，'wb'為寫入二進制檔案
with open('tb.html', 'wb') as f:
    f.write(ret)

輸出如下：

為我心愛的女孩~~

一個佛系的部落格更新者，随手寫寫，看心情吧 (っ•̀ω•́)っ✎⁾⁾

Python爬蟲進階——urllib子產品使用案例【淘寶】

代碼如下：

輸出如下：

繼續閱讀

學習軟體測試基礎測試第七天

JavaScript的那些坑之事件代理事件代理事件階段

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

ACS基本配置-權限等級管理

vue （vue2.0）使用總結(從大體結構總結)

sort()函數到底是怎樣進行數字排序的

父子元件間傳值的實作父子元件間傳值的實作

vue搭建過程及出現問題

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入