前言
一、前提准备
1、对页面进行分析
2、准备框架
二、代码实现
三、总结
①对网页进行解析
鼠标对准我们需要解析的地方,右键点击检查:
这时我们可以看到网页的基本结构:
打开以后,我们需要找到此次爬取重点:图片以及电影名称
我们可以先把小的标签头缩小,看下所有的电影的标签:
由此,我们可以知道所有的电影信息都在上图所示的标签里
②分步骤进行分析
1)首先我们先读取页面信息
通过添加模块,请求头进行网页解析
2)找到所有的li(即所有电影的存放位置)
通过findall 查找所有的电影信息,查找用到正则表达式,如果对正则表达式不懂,可以百度了解下。
3)进行字符串解析,对上面的进行切分
4)切分之后,选取所需要的
5)保存到本地
好了,以上的为保存图片所需要的步骤。
③分析网页一页有多少电影,以及每一页之间的联系
由上面我们可以知道每一页可以自己构造页数。
①导入模块
②添加网址与请求头
③定义类,并在类内定义函数
④实现