天天看點

了解爬蟲原理

老師:MissDu 送出作業

1. 簡單說明爬蟲原理

通用網絡爬蟲 從網際網路中搜集網頁,采集資訊,這些網頁資訊用于為搜尋引擎建立索引進而提供支援,它決定着整個引擎系統的内容是否豐富,資訊是否即時,是以其性能的優劣直接影響着搜尋引擎的效果。

第一步:抓取網頁,第二步:資料存儲,第三步:預處理,第四步:提供檢索服務,網站排名

2. 了解爬蟲開發過程

1).簡要說明浏覽器工作原理;

  1. 當使用者在浏覽器的位址欄中輸入一個URL并按Enter鍵之後,浏覽器會向HTTP伺服器發送HTTP請求。HTTP請求主要分為“Get”和“Post”兩種方法。
  2. 當我們在浏覽器輸入URL http://www.baidu.com 的時候,浏覽器發送一個Request請求去擷取 http://www.baidu.com 的html檔案,伺服器把Response檔案對象發送回給浏覽器。
  3. 浏覽器分析Response中的 HTML,發現其中引用了很多其他檔案,比如Images檔案,CSS檔案,JS檔案。 浏覽器會自動再次發送Request去擷取圖檔,CSS檔案,或者JS檔案。
  4. 當所有的檔案都下載下傳成功後,網頁會根據HTML文法結構,完整的顯示出來了。

URL:統一資源定位符,是用于完整地描述Internet上網頁和其他資源的位址的一種辨別方法

2).使用 requests 庫抓取網站資料;

requests.get(url) 擷取校園新聞首頁html代碼

了解爬蟲原理

3).了解網頁

寫一個簡單的html檔案,包含多個标簽,類,id

4).使用 Beautiful Soup 解析網頁;

通過BeautifulSoup(html_sample,'html.parser')把上述html檔案解析成DOM Tree

select(選擇器)定位資料

找出含有特定标簽的html元素

找出含有特定類名的html元素

找出含有特定id名的html元素

了解爬蟲原理

3.提取一篇校園新聞的标題、釋出時間、釋出機關

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

了解爬蟲原理