python3爬取1024图片

这两年python特别火，火到博客园现在也是隔三差五的出现一些python的文章。各种开源软件、各种爬虫算法纷纷开路，作为互联网行业的IT狗自然看的我也是心痒痒，于是趁着这个雾霾横行的周末瞅了两眼，作为一名老司机觉得还是应该以练带学，1024在程序员界这么流行的网站，当然拿来先练一练。

python自称是以自然语言的视角来编程，特点是开发快，语言简洁，没那么多技巧，大名鼎鼎的豆瓣、youtube都是使用python开发的网站，看来python在大规模使用这个方面来讲应该没有啥子问题；python也不是没有缺点在性能方面就Java、C++等老前辈还是没得比的，另外python和nodejs一样只能使用CPU单核，也是性能方面影响是因素之一。但python在特定领域表现突出，特别是脚本、爬虫、科学算法等。

好了,还是说正事如何爬取1024网站的图片

首先进入1024的导航网站，随便点击一个地址进入选择图片区或者在网站地址后面添加<code>thread0806.php?fid=16&search=&page=</code>,这就是1024网站的图片区，这个爬虫就是主要抓取这个区域的所有图片，使用浏览器debug分析一下这个页面发现基本都是列表页,格式如下：

在地址栏<code>http://xxxxxx.biz/thread0806.php?fid=16&search=&page=</code>后面拼1、2、3等于就是访问图片区第一页、第二页、第三页的列表页。根据这些列表页就可以爬出具体的每一个图片页的地址，类似上图的地址：<code>htm_data/16/1611/2114702.html</code> 在地址的前面拼接上主站地址就是具体的图片页了。所以根据以上的分析：通过循环地址栏找到不同的列表页在根据列表页找到具体的图片页

地址栏->图片列表->图片页地址

获取列表页图片地址代码如下：

在这个地址后面拼接1到N就是不同的列表页

利用浏览器debug一下页面，图片基本上都是外链地址，以http或者https开头以jpg、png、gif结尾，写个正则表达式匹配这些地址，然后交给程序下载就OK了。

页面代码如下：

在下载过程中遇到了几个问题，就是有的页面会报403禁止访问等，应该是网站加了一些防止爬虫的手段，网上找了下加上header参数来模拟浏览器访问就解决了;

下载单个页面代码如下：

批量爬取有两个工作要做，第一for循环目标内的所有列表页，第二为了避免重复爬取，需要给每个页面建立唯一的文件夹，下次爬取的时候如果存在直接跳过。最后在理一下所有的爬取步骤：

循环地址栏->找出图片页列表->图片页分析找出图片地址->为图片页建立唯一的文件夹->开始下载页面图片

完整的代码如下：

最后的爬取结果：

具体地址和源代码在一起

关于python2和python3的争论，网站争论比较大python3不兼容pyhton2，很多第三方的类库暂时还没有支持python3等等，但是对于我们新手来说，肯定是往前看果断python3.

代码比较冗余几个地方还没有写好，还在慢慢学习中，目前只是搞的可以跑起来。还有几个问题没有解决，下载一段时间后会莫名其妙的断掉目前还么找到原因，后期看是否可以加上多线程来爬取可能会快一点，大家有什么更好的建议也可以提出来。

<a href="http://blog.csdn.net/fly_yr/article/details/51525945">爬取豆瓣首页图片</a>

<a href="http://zzydev.com/python/2016/05/20/Python1024">使用Python爬取1024上的图片</a>

作者：纯洁的微笑

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

本文如对您有帮助，还请多帮【推荐】下此文。

如果喜欢我的文章，请关注我的公众号

本文转自纯洁的微笑博客博客园博客，原文链接：http://www.cnblogs.com/ityouknow/p/6013074.html，如需转载请自行联系原作者

python3爬取1024图片

继续阅读

今日头条iOS客户端启动速度优化技术调研实测数据

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Windows下配置Apache的SSL服务

Mac｜Windows系统本地照片自动上传到服务器

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入