天天看點

python3 爬蟲之爬取糗事百科

閑着沒事爬個糗事百科的笑話看看

python3中用urllib.request.urlopen()打開糗事百科連結會提示以下錯誤

http.client.RemoteDisconnected: Remote end closed connection without response

但是打開别的連結就正常,很奇怪不知道為什麼,沒辦法改用第三方子產品requests,也可以用urllib3子產品,還有一個第三方子產品就是bs4(beautifulsoup4)

最後經過不懈努力,終于找到了為什麼,原因就是沒有添加headers,需要添加headers,讓網站認為是從浏覽器發起的請求,這樣就不會報錯了。

requests子產品安裝和使用,這裡就不說了

附上官方連結:http://docs.python-requests.org/en/master/

中文文檔:http://cn.python-requests.org/zh_CN/latest/

urllib3子產品安裝和使用,這裡也不說了

附上官方連結:https://urllib3.readthedocs.io/en/latest/

bs4子產品安裝和使用

附上官方連結:https://www.crummy.com/software/BeautifulSoup/

好了,上面三個子產品有興趣的可以自己研究學習下,以下是代碼:

爬取糗事百科的段子和圖檔

很簡單,歡迎大家吐槽,有興趣的可以加群一塊學習(219636001)