天天看點

Python-網絡爬蟲三個流程的實作

Pyhton爬蟲三個流程的實作

1.擷取網頁

擷取網頁的基礎技術:request、urllib和selenium。

擷取網頁的進階技術:多程序多線程抓取、登陸抓取、突破IP封禁和伺服器抓取。

2.解析網頁

解析網頁的基礎技術:re正規表達式、BeautifulSoup和lxml。

解析網頁的進階技術:解決中文亂碼。

3.存儲資料

存儲資料的基礎技術:存入txt檔案和存入csv檔案。

存儲資料的進階技術:存入MySql資料庫和存入MongoDb資料庫。

繼續閱讀