Pyhton爬蟲三個流程的實作
1.擷取網頁
擷取網頁的基礎技術:request、urllib和selenium。
擷取網頁的進階技術:多程序多線程抓取、登陸抓取、突破IP封禁和伺服器抓取。
2.解析網頁
解析網頁的基礎技術:re正規表達式、BeautifulSoup和lxml。
解析網頁的進階技術:解決中文亂碼。
3.存儲資料
存儲資料的基礎技術:存入txt檔案和存入csv檔案。
存儲資料的進階技術:存入MySql資料庫和存入MongoDb資料庫。
擷取網頁的基礎技術:request、urllib和selenium。
擷取網頁的進階技術:多程序多線程抓取、登陸抓取、突破IP封禁和伺服器抓取。
解析網頁的基礎技術:re正規表達式、BeautifulSoup和lxml。
解析網頁的進階技術:解決中文亂碼。
存儲資料的基礎技術:存入txt檔案和存入csv檔案。
存儲資料的進階技術:存入MySql資料庫和存入MongoDb資料庫。