天天看点

Python+webdriver爬取博客园“我的闪存”并保存到本地

[本文出自天外归云的博客园]

<a href="http://www.cnblogs.com/LanTianYou/p/5578621.html" target="_blank">用webdriver+phantomjs实现无浏览器的自动化过程</a>

我想要将博客园“我的闪存”部分内容爬取备份到本地文件,用到了WebDriver和Phantomjs的无界面浏览器。对于xpath的获取与校验需要用到firefox浏览器,安装firebug和firepath插件。代码如下:

保存以上代码到本地“cnblogs_memory_crawl.py”文件,替换用户名与密码。在命令行中用python运行。

本地会在当前运行脚本路径下生成cnblogs_memory文件夹并在其下生成txt文件以及截图文件,截图文件保存了博客园中所有我的闪存页:

Python+webdriver爬取博客园“我的闪存”并保存到本地

手动将txt文件后缀改为html打开,效果如下:

Python+webdriver爬取博客园“我的闪存”并保存到本地

可以编写脚本对保存到本地的文件内容进行进一步删取,保留你想要的部分。