天天看點

selenium+Firefox 初試

今天算是忙活這幾天以來的第一次實際應用到生産。感覺不錯:爬蟲無人看守自動爬取了5939條資料。把過程和收獲寫下來。

  <code>selenium</code>的核心就是網頁元素的選取,這是前提。它所提供的方法功能強大,可是我不太會用,一個上午都在測試元素選取方法,可能也因不同網頁而異。今天我就是被這個網頁給坑了:

selenium+Firefox 初試

需要找到(跳轉)并點選。然而我被兜圈子了,手動點選它都沒反應。其實代碼很簡單:

這是下一頁的标簽。<code>xpath</code>方法如果找到多個項傳回的是<code>list</code>,是不能<code>.click</code>的。是以需要用<code>//input[特征]</code>來指定。

具體<code>selenium</code>資訊 <code>http://www.testclass.net/selenium_python/</code>

selenium+Firefox 初試

如圖所示。需要取到每行(/tr)的第[x]列,代碼如下:

  程式共運作了20分鐘,一共爬了394頁,期間一直沒有儲存檔案。我期間一直擔心萬一其中一頁打不開了,或者其他錯誤,那前面幾百頁就白爬了啊。是以需要在for循環(爬網頁)裡面加上  

即每50儲存一次。

繼續閱讀