天天看点

python爬虫基础

<code>#coding:utf-8</code>

<code>#爬虫基础,需要两个模块urllib和re</code>

<code>import</code> <code>urllib,re</code>

<code>#获取网页源码</code>

<code>def</code> <code>get_html():</code>

<code>    </code><code>page </code><code>=</code> <code>urllib.urlopen(</code><code>'http://www.baidu.com'</code><code>)</code>

<code>    </code><code>html </code><code>=</code> <code>read(page)  </code><code>#用read方式读取网页源代码</code>

<code>    </code><code>return</code> <code>html</code>

<code>x</code><code>=</code><code>0</code>

<code>#匹配url的图片地址,然后下载   </code>

<code>def</code> <code>getimages():</code>

<code>    </code><code>#编译成正则表达式对象,compile提高效率</code>

<code>    </code><code>image_re</code><code>=</code><code>re.</code><code>compile</code><code>(r</code><code>'src="(.*?)" class='</code><code>)</code>

<code>    </code> 

<code>    </code><code>#找到re匹配的所有字串,通过列表返回</code>

<code>    </code><code>image_list </code><code>=</code> <code>re.findall(image_re,html)</code>

<code>    </code><code>for</code> <code>image_url </code><code>in</code> <code>image_list:</code>

<code>        </code><code>print</code> <code>image_url</code>

<code>        </code><code>global</code> <code>x </code><code>#全局变量,后面可以跟上一个或多个变量</code>

<code>        </code> 

<code>        </code><code>#将url定位到的html下载到本地</code>

<code>        </code><code>urllib.urlretrieve(image_url,</code><code>'/tmp/python/%s.jpg'</code><code>%</code><code>x) </code>

<code>   </code> 

本文转自 王家东哥 51CTO博客,原文链接:http://blog.51cto.com/xiaodongge/1890232