python爬虫基础

2017-11-11 23:50:00

<code>#coding:utf-8</code>

<code>#爬虫基础，需要两个模块urllib和re</code>

<code>import</code> <code>urllib,re</code>

<code>#获取网页源码</code>

<code> </code><code>page </code><code>=</code> <code>urllib.urlopen(</code><code>'http://www.baidu.com'</code><code>)</code>

<code> </code><code>html </code><code>=</code> <code>read(page) </code><code>#用read方式读取网页源代码</code>

<code> </code><code>return</code> <code>html</code>

<code>#匹配url的图片地址，然后下载 </code>

<code>def</code> <code>getimages():</code>

<code> </code><code>#编译成正则表达式对象，compile提高效率</code>

<code> </code><code>image_re</code><code>=</code><code>re.</code><code>compile</code><code>(r</code><code>'src="(.*?)" class='</code><code>)</code>

<code> </code><code>#找到re匹配的所有字串，通过列表返回</code>

<code> </code><code>image_list </code><code>=</code> <code>re.findall(image_re,html)</code>

<code> </code><code>for</code> <code>image_url </code><code>in</code> <code>image_list:</code>

<code> </code><code>print</code> <code>image_url</code>

<code> </code><code>global</code> <code>x </code><code>#全局变量，后面可以跟上一个或多个变量</code>

<code> </code><code>#将url定位到的html下载到本地</code>

<code> </code><code>urllib.urlretrieve(image_url,</code><code>'/tmp/python/%s.jpg'</code><code>%</code><code>x) </code>

本文转自王家东哥 51CTO博客，原文链接:http://blog.51cto.com/xiaodongge/1890232

继续阅读