[本文出自天外歸雲的部落格園]
<a href="http://www.cnblogs.com/LanTianYou/p/5578621.html" target="_blank">用webdriver+phantomjs實作無浏覽器的自動化過程</a>
我想要将部落格園“我的閃存”部分内容爬取備份到本地檔案,用到了WebDriver和Phantomjs的無界面浏覽器。對于xpath的擷取與校驗需要用到firefox浏覽器,安裝firebug和firepath插件。代碼如下:
儲存以上代碼到本地“cnblogs_memory_crawl.py”檔案,替換使用者名與密碼。在指令行中用python運作。
本地會在目前運作腳本路徑下生成cnblogs_memory檔案夾并在其下生成txt檔案以及截圖檔案,截圖檔案儲存了部落格園中所有我的閃存頁:

手動将txt檔案字尾改為html打開,效果如下:
可以編寫腳本對儲存到本地的檔案内容進行進一步删取,保留你想要的部分。