《我用爬蟲一天時間“偷了”知乎一百萬使用者,隻為證明PHP是世界上最好的語言 》所使用的程式架構
編寫PHP網絡爬蟲, 需要具備以下技能:
爬蟲采用PHP編寫
從網頁中抽取資料需要用XPath
當然我們還可以使用CSS選擇器
很多情況下都會用到正規表達式
Chrome的開發者工具是神器, 很多AJAX請求需要用它來分析
第一個demo
爬蟲采用PHP編寫, 下面以糗事百科為例, 來看一下我們的爬蟲長什麼樣子:
爬蟲的整體架構就是這樣, 首先定義了一個$configs數組, 裡面設定了待爬網站的一些資訊, 然後通過調用$spider = new phpspider($configs);和$spider->start();來配置并啟動爬蟲.
$configs對象如何定義, 後面會作詳細介紹.^_^
官方下載下傳位址:https://github.com/owner888/phpspider
官方開發手冊:https://doc.phpspider.org/