天天看点

简单的图片爬取,爬取豆瓣电影图片并保存到本地

前言

一、前提准备

1、对页面进行分析

2、准备框架

二、代码实现

三、总结

简单的图片爬取,爬取豆瓣电影图片并保存到本地

①对网页进行解析

鼠标对准我们需要解析的地方,右键点击检查:

简单的图片爬取,爬取豆瓣电影图片并保存到本地

这时我们可以看到网页的基本结构:

简单的图片爬取,爬取豆瓣电影图片并保存到本地

打开以后,我们需要找到此次爬取重点:图片以及电影名称

简单的图片爬取,爬取豆瓣电影图片并保存到本地

我们可以先把小的标签头缩小,看下所有的电影的标签:

简单的图片爬取,爬取豆瓣电影图片并保存到本地

由此,我们可以知道所有的电影信息都在上图所示的标签里

②分步骤进行分析

1)首先我们先读取页面信息

简单的图片爬取,爬取豆瓣电影图片并保存到本地

通过添加模块,请求头进行网页解析

2)找到所有的li(即所有电影的存放位置)

简单的图片爬取,爬取豆瓣电影图片并保存到本地

通过findall 查找所有的电影信息,查找用到正则表达式,如果对正则表达式不懂,可以百度了解下。

3)进行字符串解析,对上面的进行切分

简单的图片爬取,爬取豆瓣电影图片并保存到本地

4)切分之后,选取所需要的

简单的图片爬取,爬取豆瓣电影图片并保存到本地

5)保存到本地

简单的图片爬取,爬取豆瓣电影图片并保存到本地

好了,以上的为保存图片所需要的步骤。

③分析网页一页有多少电影,以及每一页之间的联系

简单的图片爬取,爬取豆瓣电影图片并保存到本地

由上面我们可以知道每一页可以自己构造页数。

简单的图片爬取,爬取豆瓣电影图片并保存到本地

①导入模块

②添加网址与请求头

③定义类,并在类内定义函数

④实现

简单的图片爬取,爬取豆瓣电影图片并保存到本地