天天看点

Python爬虫系列(一)初期学习爬虫的拾遗与总结

一、环境搭建和工具准备

1、为了省去时间投入学习,推荐直接安装集成环境 anaconda 2、ide:pycharm、pydev 3、工具:jupyter notebook(安装完anaconda会有的)

二、python基础视频教程

1、疯狂的python:快速入门精讲(python2.x,可体验到与python3.x的差异) 2、零基础入门学习python 看完这些课程,自己对python有一个感觉和掌握,可以继续看一些进阶教程 3、python3大全(pasword:bf3e)

三、python爬虫视频教程

1、python网络爬虫实战 2、python3爬虫三大案例实战分享

四、python爬虫的相关连接

1、python爬虫的最佳实践 2、python网络爬虫实战项目代码大全 3、零基础制作一个python 爬虫 4、python爬虫入门 5、python3 7、抓取斗鱼tv的房间信息 如果你想学习python可以来这个群,首先是四七二,中间是三零九,最后是二六一,里面有大量的学习资料可以下载。 五、正则表达式和beautifulsoup、phatomjs +selenium的使用
1、python爬虫小白入门 2、轻松自动化---selenium-webdriver(python) 3、 python 正则表达式 re 模块简明笔记 4、【python 笔记】selenium 简介 5、selenium webdriver定位页面元素的几种方式 6、 python爬虫利器selenium+phantomjs系列入门 7、python爬虫入门(7):正则表达式

六、自己爬取新浪新闻相关信息的实战

Python爬虫系列(一)初期学习爬虫的拾遗与总结

爬取页面

我直接把源码贴在这里了,是参考python网络爬虫实战课程做下来的

新闻评论数抽取函数

import re import json import requests #js抓取新闻评论信息 commenturl='http://comment5.news.sina.com.cn/page/info?version=1&format=js&\ channel=gn&newsid=comos-{}&\ group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20&jsvar=loader_1491395188566_53913700' def getcommentcounts(newsurl): #获取新闻id m=re.search('doc-i(.+).shtml',newsurl) newsid=m.group(1) #根据新闻id获取评论信息 comments=requests.get(commenturl.format(newsid)) #将信息解析为json格式 jd=json.loads(comments.text.strip('var loader_1491395188566_53913 700=')) return jd['result']['count']['total']
Python爬虫系列(一)初期学习爬虫的拾遗与总结

新闻内文信息抽取函数

from datetime import datetime from bs4 import beautifulsoup def getnewsdetail(newsurl): result={} res=requests.get(newsurl) res.encoding='utf-8' soup=beautifulsoup(res.text,'html.parser') result['title']=soup.select('#artibodytitle') timesource=soup.select('.time-source')[0].contents[0].strip() result['dt']=datetime.strptime(timesource,'%y年%m月%d日%h:%m') result['source']=soup.select('.time-source span a')[0].text result['article']=' '.join([p.text.strip() for p in soup.select('#artibody p')[:-1]]) result['editor']=soup.select('.article-editor')[0].text.lstrip('责任编辑:') return result
Python爬虫系列(一)初期学习爬虫的拾遗与总结

七、感想

这些天学习下来,python爬虫思路和套路很明确,主要是我们要对不同网站(反爬等)设计不同爬取路线和方法,但是还是要求自己总结方法和积累知识吧,还有一点自己也希望能把爬虫运用到实际生活或者应用中(如果单纯的抽取一个网页信息其实没多大意思),比如尝试应用到批量下载一个网站的图片或者文件等等,让爬虫为我们服务。