天天看點

PHP蜘蛛爬蟲開發文檔

《我用爬蟲一天時間“偷了”知乎一百萬使用者,隻為證明PHP是世界上最好的語言 》所使用的程式架構

編寫PHP網絡爬蟲, 需要具備以下技能:

爬蟲采用PHP編寫

從網頁中抽取資料需要用XPath

當然我們還可以使用CSS選擇器

很多情況下都會用到正規表達式

Chrome的開發者工具是神器, 很多AJAX請求需要用它來分析

第一個demo

爬蟲采用PHP編寫, 下面以糗事百科為例, 來看一下我們的爬蟲長什麼樣子:

爬蟲的整體架構就是這樣, 首先定義了一個$configs數組, 裡面設定了待爬網站的一些資訊, 然後通過調用$spider = new phpspider($configs);和$spider->start();來配置并啟動爬蟲.

$configs對象如何定義, 後面會作詳細介紹.^_^

官方下載下傳位址:https://github.com/owner888/phpspider

官方開發手冊:https://doc.phpspider.org/