閑着沒事爬個糗事百科的笑話看看
python3中用urllib.request.urlopen()打開糗事百科連結會提示以下錯誤
http.client.RemoteDisconnected: Remote end closed connection without response
但是打開别的連結就正常,很奇怪不知道為什麼,沒辦法改用第三方子產品requests,也可以用urllib3子產品,還有一個第三方子產品就是bs4(beautifulsoup4)
最後經過不懈努力,終于找到了為什麼,原因就是沒有添加headers,需要添加headers,讓網站認為是從浏覽器發起的請求,這樣就不會報錯了。
requests子產品安裝和使用,這裡就不說了
附上官方連結:http://docs.python-requests.org/en/master/
中文文檔:http://cn.python-requests.org/zh_CN/latest/
urllib3子產品安裝和使用,這裡也不說了
附上官方連結:https://urllib3.readthedocs.io/en/latest/
bs4子產品安裝和使用
附上官方連結:https://www.crummy.com/software/BeautifulSoup/
好了,上面三個子產品有興趣的可以自己研究學習下,以下是代碼:
爬取糗事百科的段子和圖檔
很簡單,歡迎大家吐槽,有興趣的可以加群一塊學習(219636001)