selenium+Firefox 初試

2018-01-08 23:50:00

今天算是忙活這幾天以來的第一次實際應用到生産。感覺不錯：爬蟲無人看守自動爬取了5939條資料。把過程和收獲寫下來。

　　<code>selenium</code>的核心就是網頁元素的選取，這是前提。它所提供的方法功能強大，可是我不太會用，一個上午都在測試元素選取方法，可能也因不同網頁而異。今天我就是被這個網頁給坑了：

需要找到（跳轉）并點選。然而我被兜圈子了，手動點選它都沒反應。其實代碼很簡單：

這是下一頁的标簽。<code>xpath</code>方法如果找到多個項傳回的是<code>list</code>，是不能<code>.click</code>的。是以需要用<code>//input[特征]</code>來指定。

具體<code>selenium</code>資訊 <code>http://www.testclass.net/selenium_python/</code>

如圖所示。需要取到每行（/tr）的第[x]列，代碼如下：

　　程式共運作了20分鐘，一共爬了394頁，期間一直沒有儲存檔案。我期間一直擔心萬一其中一頁打不開了，或者其他錯誤，那前面幾百頁就白爬了啊。是以需要在for循環（爬網頁）裡面加上　　

即每50儲存一次。

繼續閱讀