怎麼通過CSS選擇器采集網頁資料

做了個資料采集插件準備拿部落格園練練手。想一下要采集什麼資料，就從首頁文章清單采集起到第10頁就結束采集，然後在點選進去采集文章内容。

視訊示範位址：https://www.bilibili.com/video/BV1HP4y157rR

九頭蟲網頁資料采集插件大家如果也想試下，那麼可以點選進去下載下傳。

九頭蟲網頁資料采集插件幫助文檔

首頁：文章标題、文章介紹、作者、作者頭像、點贊數、評論數、釋出時間

内容頁：正文内容

按<code>F12</code>打開<code>開發者工具</code>裡面看到文章清單<code>HTML代碼結構</code>：

文章标題可以通過CSS選擇器<code>.post-item-title</code>擷取到；

文章位址可以通過CSS選擇器<code>.post-item-title</code>擷取到；

文章介紹可以通過CSS選擇器<code>.post-item-summary</code>擷取到;

作者可以通過CSS選擇器<code>.post-item-author</code>擷取到；

使用者頭像可以通過CSS選擇器<code>img.avatar</code>擷取到；

點贊數可以通過CSS選擇器<code>.post-item-foot a.post-meta-item</code>擷取到;

評論數可以通過CSS選擇器<code>.post-item-foot a[class*=post-meta-item]:nth-of-type(3)</code>擷取到;

浏覽數可以通過CSS選擇器<code>.post-item-foot a[class*=post-meta-item]:nth-of-type(4) span</code>擷取到;

那麼現在開始編寫<code>采集規則</code>,采集規則儲存之後，進入頁面檢驗目前是否采集到資料了。

編寫方式與上面的一樣，這裡就直接貼出代碼了。

生成URL采集位址幫助文檔

在計劃任務中，通過<code>動态URL采集位址</code>擷取要采集的文章頁面位址，擷取完成之後插件就會自動去打開對應頁面。隻要打開頁面，插件就會去比對采集規則然後采集資料。