天天看點

了解爬蟲原理

1. 簡單說明爬蟲原理

爬蟲,是按照一定的規則,自動地抓取網際網路資訊的程式或者腳本,實質就是通過程式自動去擷取 Web 頁面上想要擷取的資料,即自動抓取資料。

浏覽器的所有結果都是由代碼組成,爬蟲就是為了擷取這些内容,通過過濾、分析代碼,從中擷取我們想要的資料。

2. 了解爬蟲開發過程

1).簡要說明浏覽器工作原理;

通過浏覽器向目标站點發送請求,經過伺服器的處理之後又通過浏覽器做出反應。

2).使用 requests 庫抓取網站資料;

了解爬蟲原理

requests.get(url) 擷取校園新聞首頁html代碼

了解爬蟲原理

3).了解網頁

寫一個簡單的html檔案,包含多個标簽,類,id

4).使用 Beautiful Soup 解析網頁;

通過BeautifulSoup(html_sample,'html.parser')把上述html檔案解析成DOM Tree

select(選擇器)定位資料

找出含有特定标簽的html元素

找出含有特定類名的html元素

找出含有特定id名的html元素

了解爬蟲原理
了解爬蟲原理

3.提取一篇校園新聞的标題、釋出時間、釋出機關

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

了解爬蟲原理
了解爬蟲原理