python之网络爬虫

一、演绎自已的北爱

踏上北漂的航班，开始演奏了我自已的北京爱情故事

二、爬虫1

1、网络爬虫的思路

首先：指定一个url，然后打开这个url地址，读其中的内容。

其次：从读取的内容中过滤关键字；这一步是关键，可以通过查看源代码的方式获取。

最后：下载获取的html的url地址，或者图片的url地址保存到本地

2、针对指定的url来网络爬虫

分析：

第一步：大约共有4300个下一页。

第二步：一个页面上有10个个人头像

第三步：一个头像内大约有100张左右的个人图片

这个页面默认是没有下一页按钮的，我们可以通过修改其url地址来进行查看下一个页面

最后一页的url地址和页面展示如下图所示：

点击任意一个头像来进入个人的主页，如下图

3、定制的脚本

<code>#!/usr/bin/env python</code>

<code>#coding:utf-8</code>

<code>#Author：Allentuns</code>

<code>#Email：[email protected]</code>

<code>import</code> <code>urllib</code>

<code>import</code> <code>os</code>

<code>import</code> <code>sys</code>

<code>import</code> <code>time</code>

<code>ahref = </code><code>'<a href="'</code>

<code>ahrefs = </code><code>'<a href="h'</code>

<code>ahtml = </code><code>".htm"</code>

<code>atitle = </code><code>"<img style"</code>

<code>btitle = </code><code>'<img src="'</code>

<code>while</code> <code>page < 4300: </code><code>#这个地方可以修改;最大值为4300，我测试的时候写的是3.</code>

<code> </code><code>mmurl = </code><code>"http://mm.taobao.com/json/request_top_list.htm?type=0&page=%d"</code> <code>%(page)</code>

<code> </code><code>content = urllib.urlopen(mmurl).</code><code>read</code><code>()</code>

<code> </code><code>href = content.</code><code>find</code><code>(ahref)</code>

<code> </code><code>html = content.</code><code>find</code><code>(ahtml)</code>

<code> </code><code>url = content[href + len(ahref) : html + len(ahtml)]</code>

<code> </code><code>print url</code>

<code> </code><code>imgtitle = content.</code><code>find</code><code>(btitle,html)</code>

<code> </code><code>imgjpg = content.</code><code>find</code><code>(ajpg,imgtitle)</code>

<code> </code><code>littleimgurl = content[imgtitle + len(btitle): imgjpg + len(ajpg)]</code>

<code> </code><code>print littleimgurl</code>

<code> </code><code>urllib.urlretrieve(littleimgurl,</code><code>"/www/src/temp/image/taobaomm/allentuns.jpg"</code><code>)</code>

<code> </code><code>while</code> <code>s < 18:</code>

<code> </code><code>href = content.</code><code>find</code><code>(ahrefs,html)</code>

<code> </code><code>html = content.</code><code>find</code><code>(ahtml,href)</code>

<code> </code><code>url = content[href + len(ahref): html + len(ajpg)]</code>

<code> </code><code>print s,url</code>

<code> </code><code>imgtitle = content.</code><code>find</code><code>(btitle,html)</code>

<code> </code><code>imgjpg = content.</code><code>find</code><code>(ajpg,imgtitle)</code>

<code> </code><code>littleimgurl = content[imgtitle : imgjpg + len(ajpg)]</code>

<code> </code><code>littlesrc = littleimgurl.</code><code>find</code><code>(</code><code>"src"</code><code>)</code>

<code> </code><code>tureimgurl = littleimgurl[littlesrc + 5:]</code>

<code> </code><code>print s,tureimgurl</code>

<code> </code><code>if</code> <code>url.</code><code>find</code><code>(</code><code>"photo"</code><code>) == -1:</code>

<code> </code><code>content01 = urllib.urlopen(url).</code><code>read</code><code>()</code>

<code> </code><code>imgtitle = content01.</code><code>find</code><code>(atitle)</code>

<code> </code><code>imgjpg = content01.</code><code>find</code><code>(ajpg,imgtitle)</code>

<code> </code><code>littleimgurl = content01[imgtitle : imgjpg + len(ajpg)]</code>

<code> </code><code>littlesrc = littleimgurl.</code><code>find</code><code>(</code><code>"src"</code><code>)</code>

<code> </code><code>tureimgurl = littleimgurl[littlesrc + 5:]</code>

<code> </code><code>print tureimgurl</code>

<code> </code><code>imgcount = content01.count(atitle)</code>

<code> </code><code>while</code> <code>i < imgcount:</code>

<code> </code><code>content01 = urllib.urlopen(url).</code><code>read</code><code>()</code>

<code> </code><code>imgtitle = content01.</code><code>find</code><code>(atitle,imgjpg)</code>

<code> </code><code>imgjpg = content01.</code><code>find</code><code>(ajpg,imgtitle)</code>

<code> </code><code>littleimgurl = content01[imgtitle : imgjpg + len(ajpg)]</code>

<code> </code><code>littlesrc = littleimgurl.</code><code>find</code><code>(</code><code>"src"</code><code>)</code>

<code> </code><code>tureimgurl = littleimgurl[littlesrc + 5:]</code>

<code> </code><code>print i,tureimgurl</code>

<code> </code><code>time</code><code>.</code><code>sleep</code><code>(1)</code>

<code> </code><code>if</code> <code>tureimgurl.count(</code><code>"<"</code><code>) == 0:</code>

<code> </code><code>imgname = tureimgurl[tureimgurl.index(</code><code>"T"</code><code>):]</code>

<code> </code><code>urllib.urlretrieve(tureimgurl,</code><code>"/www/src/temp/image/taobaomm/%s-%s"</code> <code>%(page,imgname))</code>

<code> </code><code>except IOError:</code>

<code> </code><code>print </code><code>'/nWhy did you do an EOF on me?'</code>

<code> </code><code>break</code>

<code> </code><code>except:</code>

<code> </code><code>print </code><code>'/nSome error/exception occurred.'</code>

<code> </code><code>print </code><code>"---------------{< 20;1 page hava 10 htm and pic }-------------------------}"</code>

<code> </code><code>print </code><code>"****************%s page*******************************"</code> <code>%(page)</code>

<code> </code><code>print </code><code>"Download Finshed."</code>

4、图片展示(部分图片)

5、查看下载的图片数量

二、爬虫2

1、首先来分析url

第一步：总共有7个页面；

第二步：每个页面有20篇文章

第三步:查看后总共有317篇文章

2、python脚本

脚本的功能:通过给定的url来将这片博客里面的所有文章下载到本地

<code>#coding: utf-8</code>

<code>while</code> <code>page < 8:</code>

<code> </code><code>str = </code><code>"http://blog.sina.com.cn/s/articlelist_1191258123_0_%d.html"</code> <code>%(page)</code>

<code> </code><code>content = urllib.urlopen(str).</code><code>read</code><code>()</code>

<code> </code><code>title = content.</code><code>find</code><code>(r</code><code>"<a title"</code><code>)</code>

<code> </code><code>href = content.</code><code>find</code><code>(r</code><code>"href="</code><code>,title)</code>

<code> </code><code>html = content.</code><code>find</code><code>(r</code><code>".html"</code><code>,href)</code>

<code> </code><code>url = content[href + 6:html + 5]</code>

<code> </code><code>urlfilename = url[-26:]</code>

<code> </code><code>list00.append(url)</code>

<code> </code><code>print i, url</code>

<code> </code><code>while</code> <code>title != -1 and href != -1 and html != -1 and i < 350:</code>

<code> </code><code>title = content.</code><code>find</code><code>(r</code><code>"<a title"</code><code>,html)</code>

<code> </code><code>href = content.</code><code>find</code><code>(r</code><code>"href="</code><code>,title)</code>

<code> </code><code>html = content.</code><code>find</code><code>(r</code><code>".html"</code><code>,href)</code>

<code> </code><code>url = content[href + 6:html + 5]</code>

<code> </code><code>urlfilename = url[-26:]</code>

<code> </code><code>list00.append(url)</code>

<code> </code><code>print i, url</code>

<code> </code><code>print </code><code>"Link address Finshed."</code>

<code> </code><code>print </code><code>"This is %s page"</code> <code>%(page)</code>

<code> </code><code>print </code><code>"spage="</code><code>,list00[50]</code>

<code> </code><code>print list00[:51]</code>

<code> </code><code>print list00.count(</code><code>""</code><code>)</code>

<code> </code><code>print </code><code>"All links address Finshed."</code>

<code>x = list00.count(</code><code>''</code><code>)</code>

<code>while</code> <code>a < x:</code>

<code> </code><code>y1 = list00.index(</code><code>''</code><code>)</code>

<code> </code><code>print a</code>

<code>print list00.count(</code><code>''</code><code>)</code>

<code>listcount = len(list00)</code>

<code>while</code> <code>j < listcount:</code>

<code> </code><code>content = urllib.urlopen(list00[j]).</code><code>read</code><code>()</code>

<code> </code><code>open</code><code>(r</code><code>"/tmp/hanhan/"</code><code>+list00[j][-26:],</code><code>'a+'</code><code>).write(content)</code>

<code> </code><code>print </code><code>"%2s is finshed."</code> <code>%(j)</code>

<code> </code><code>#time.sleep(1)</code>

<code> </code><code>print </code><code>"Write to file End."</code>

3、下载文章后的截图

本文转自zys467754239 51CTO博客，原文链接：http://blog.51cto.com/467754239/1574528，如需转载请自行联系原作者

python之网络爬虫

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入