天天看點

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

前言

一、前提準備

1、對頁面進行分析

2、準備架構

二、代碼實作

三、總結

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

①對網頁進行解析

滑鼠對準我們需要解析的地方,右鍵點選檢查:

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

這時我們可以看到網頁的基本結構:

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

打開以後,我們需要找到此次爬取重點:圖檔以及電影名稱

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

我們可以先把小的标簽頭縮小,看下所有的電影的标簽:

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

由此,我們可以知道所有的電影資訊都在上圖所示的标簽裡

②分步驟進行分析

1)首先我們先讀取頁面資訊

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

通過添加子產品,請求頭進行網頁解析

2)找到所有的li(即所有電影的存放位置)

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

通過findall 查找所有的電影資訊,查找用到正規表達式,如果對正規表達式不懂,可以百度了解下。

3)進行字元串解析,對上面的進行切分

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

4)切分之後,選取所需要的

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

5)儲存到本地

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

好了,以上的為儲存圖檔所需要的步驟。

③分析網頁一頁有多少電影,以及每一頁之間的聯系

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

由上面我們可以知道每一頁可以自己構造頁數。

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地

①導入子產品

②添加網址與請求頭

③定義類,并在類内定義函數

④實作

簡單的圖檔爬取,爬取豆瓣電影圖檔并儲存到本地