天天看點

Python+webdriver爬取部落格園“我的閃存”并儲存到本地

[本文出自天外歸雲的部落格園]

<a href="http://www.cnblogs.com/LanTianYou/p/5578621.html" target="_blank">用webdriver+phantomjs實作無浏覽器的自動化過程</a>

我想要将部落格園“我的閃存”部分内容爬取備份到本地檔案,用到了WebDriver和Phantomjs的無界面浏覽器。對于xpath的擷取與校驗需要用到firefox浏覽器,安裝firebug和firepath插件。代碼如下:

儲存以上代碼到本地“cnblogs_memory_crawl.py”檔案,替換使用者名與密碼。在指令行中用python運作。

本地會在目前運作腳本路徑下生成cnblogs_memory檔案夾并在其下生成txt檔案以及截圖檔案,截圖檔案儲存了部落格園中所有我的閃存頁:

Python+webdriver爬取部落格園“我的閃存”并儲存到本地

手動将txt檔案字尾改為html打開,效果如下:

Python+webdriver爬取部落格園“我的閃存”并儲存到本地

可以編寫腳本對儲存到本地的檔案内容進行進一步删取,保留你想要的部分。