天天看点

python3 爬虫之爬取糗事百科

闲着没事爬个糗事百科的笑话看看

python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误

http.client.RemoteDisconnected: Remote end closed connection without response

但是打开别的链接就正常,很奇怪不知道为什么,没办法改用第三方模块requests,也可以用urllib3模块,还有一个第三方模块就是bs4(beautifulsoup4)

最后经过不懈努力,终于找到了为什么,原因就是没有添加headers,需要添加headers,让网站认为是从浏览器发起的请求,这样就不会报错了。

requests模块安装和使用,这里就不说了

附上官方链接:http://docs.python-requests.org/en/master/

中文文档:http://cn.python-requests.org/zh_CN/latest/

urllib3模块安装和使用,这里也不说了

附上官方链接:https://urllib3.readthedocs.io/en/latest/

bs4模块安装和使用

附上官方链接:https://www.crummy.com/software/BeautifulSoup/

好了,上面三个模块有兴趣的可以自己研究学习下,以下是代码:

爬取糗事百科的段子和图片

很简单,欢迎大家吐槽,有兴趣的可以加群一块学习(219636001)