<code>#coding:utf-8</code>
<code>#爬虫基础,需要两个模块urllib和re</code>
<code>import</code> <code>urllib,re</code>
<code>#获取网页源码</code>
<code>def</code> <code>get_html():</code>
<code> </code><code>page </code><code>=</code> <code>urllib.urlopen(</code><code>'http://www.baidu.com'</code><code>)</code>
<code> </code><code>html </code><code>=</code> <code>read(page) </code><code>#用read方式读取网页源代码</code>
<code> </code><code>return</code> <code>html</code>
<code>x</code><code>=</code><code>0</code>
<code>#匹配url的图片地址,然后下载 </code>
<code>def</code> <code>getimages():</code>
<code> </code><code>#编译成正则表达式对象,compile提高效率</code>
<code> </code><code>image_re</code><code>=</code><code>re.</code><code>compile</code><code>(r</code><code>'src="(.*?)" class='</code><code>)</code>
<code> </code>
<code> </code><code>#找到re匹配的所有字串,通过列表返回</code>
<code> </code><code>image_list </code><code>=</code> <code>re.findall(image_re,html)</code>
<code> </code><code>for</code> <code>image_url </code><code>in</code> <code>image_list:</code>
<code> </code><code>print</code> <code>image_url</code>
<code> </code><code>global</code> <code>x </code><code>#全局变量,后面可以跟上一个或多个变量</code>
<code> </code>
<code> </code><code>#将url定位到的html下载到本地</code>
<code> </code><code>urllib.urlretrieve(image_url,</code><code>'/tmp/python/%s.jpg'</code><code>%</code><code>x) </code>
<code> </code>
本文转自 王家东哥 51CTO博客,原文链接:http://blog.51cto.com/xiaodongge/1890232