Python爬虫系列（一）初期学习爬虫的拾遗与总结

2021-11-07 19:37:05

一、环境搭建和工具准备

1、为了省去时间投入学习，推荐直接安装集成环境 anaconda 2、ide：pycharm、pydev 3、工具：jupyter notebook（安装完anaconda会有的）

二、python基础视频教程

1、疯狂的python：快速入门精讲（python2.x，可体验到与python3.x的差异） 2、零基础入门学习python 看完这些课程，自己对python有一个感觉和掌握，可以继续看一些进阶教程 3、python3大全（pasword:bf3e）

三、python爬虫视频教程

1、python网络爬虫实战 2、python3爬虫三大案例实战分享

四、python爬虫的相关连接

1、python爬虫的最佳实践 2、python网络爬虫实战项目代码大全 3、零基础制作一个python 爬虫 4、python爬虫入门 5、python3 7、抓取斗鱼tv的房间信息如果你想学习python可以来这个群，首先是四七二，中间是三零九，最后是二六一，里面有大量的学习资料可以下载。五、正则表达式和beautifulsoup、phatomjs +selenium的使用

1、python爬虫小白入门 2、轻松自动化---selenium-webdriver(python) 3、 python 正则表达式 re 模块简明笔记 4、【python 笔记】selenium 简介 5、selenium webdriver定位页面元素的几种方式 6、 python爬虫利器selenium+phantomjs系列入门 7、python爬虫入门（7）：正则表达式

六、自己爬取新浪新闻相关信息的实战

爬取页面

我直接把源码贴在这里了，是参考python网络爬虫实战课程做下来的

新闻评论数抽取函数

import re import json import requests #js抓取新闻评论信息 commenturl='http://comment5.news.sina.com.cn/page/info?version=1&format=js&\ channel=gn&newsid=comos-{}&\ group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20&jsvar=loader_1491395188566_53913700' def getcommentcounts(newsurl): #获取新闻id m=re.search('doc-i(.+).shtml',newsurl) newsid=m.group(1) #根据新闻id获取评论信息 comments=requests.get(commenturl.format(newsid)) #将信息解析为json格式 jd=json.loads(comments.text.strip('var loader_1491395188566_53913 700=')) return jd['result']['count']['total']

新闻内文信息抽取函数

from datetime import datetime from bs4 import beautifulsoup def getnewsdetail(newsurl): result={} res=requests.get(newsurl) res.encoding='utf-8' soup=beautifulsoup(res.text,'html.parser') result['title']=soup.select('#artibodytitle') timesource=soup.select('.time-source')[0].contents[0].strip() result['dt']=datetime.strptime(timesource,'%y年%m月%d日%h:%m') result['source']=soup.select('.time-source span a')[0].text result['article']=' '.join([p.text.strip() for p in soup.select('#artibody p')[:-1]]) result['editor']=soup.select('.article-editor')[0].text.lstrip('责任编辑：') return result

七、感想

这些天学习下来，python爬虫思路和套路很明确，主要是我们要对不同网站（反爬等）设计不同爬取路线和方法，但是还是要求自己总结方法和积累知识吧，还有一点自己也希望能把爬虫运用到实际生活或者应用中（如果单纯的抽取一个网页信息其实没多大意思），比如尝试应用到批量下载一个网站的图片或者文件等等，让爬虫为我们服务。

Python爬虫系列（一）初期学习爬虫的拾遗与总结

继续阅读

vue （vue2.0）使用总结(从大体结构总结)

vue搭建过程及出现问题

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

/\B(?=(?:\d{3})+$)/g 一条令人费解的正则表达式

适用于JavaScript的ECMAScript 2020规范向前发展

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

JS生成uuid的四种方法

vue-cli简介（中文翻译）

Ajax发送和获取json数据到Spring mvc 1.spring mvc后端2.web前段

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

layui多任务上传添加进度条

JSONObject包导入异常 java.lang.NoClassDefFoundErrorweb项目的导入包的问题

在python中创建excel并写入