前言
一、前提準備
1、對頁面進行分析
2、準備架構
二、代碼實作
三、總結
①對網頁進行解析
滑鼠對準我們需要解析的地方,右鍵點選檢查:
這時我們可以看到網頁的基本結構:
打開以後,我們需要找到此次爬取重點:圖檔以及電影名稱
我們可以先把小的标簽頭縮小,看下所有的電影的标簽:
由此,我們可以知道所有的電影資訊都在上圖所示的标簽裡
②分步驟進行分析
1)首先我們先讀取頁面資訊
通過添加子產品,請求頭進行網頁解析
2)找到所有的li(即所有電影的存放位置)
通過findall 查找所有的電影資訊,查找用到正規表達式,如果對正規表達式不懂,可以百度了解下。
3)進行字元串解析,對上面的進行切分
4)切分之後,選取所需要的
5)儲存到本地
好了,以上的為儲存圖檔所需要的步驟。
③分析網頁一頁有多少電影,以及每一頁之間的聯系
由上面我們可以知道每一頁可以自己構造頁數。
①導入子產品
②添加網址與請求頭
③定義類,并在類内定義函數
④實作