Pyhton爬虫三个流程的实现
1.获取网页
获取网页的基础技术:request、urllib和selenium。
获取网页的进阶技术:多进程多线程抓取、登陆抓取、突破IP封禁和服务器抓取。
2.解析网页
解析网页的基础技术:re正则表达式、BeautifulSoup和lxml。
解析网页的进阶技术:解决中文乱码。
3.存储数据
存储数据的基础技术:存入txt文件和存入csv文件。
存储数据的进阶技术:存入MySql数据库和存入MongoDb数据库。
获取网页的基础技术:request、urllib和selenium。
获取网页的进阶技术:多进程多线程抓取、登陆抓取、突破IP封禁和服务器抓取。
解析网页的基础技术:re正则表达式、BeautifulSoup和lxml。
解析网页的进阶技术:解决中文乱码。
存储数据的基础技术:存入txt文件和存入csv文件。
存储数据的进阶技术:存入MySql数据库和存入MongoDb数据库。