了解爬蟲原理

2019-03-27 16:52:00

1. 簡單說明爬蟲原理

　　通用網絡爬蟲從網際網路中搜集網頁，采集資訊，這些網頁資訊用于為搜尋引擎建立索引進而提供支援，也就是模拟浏覽器的動作從網站上搜尋資訊，并擷取自己需要的資訊。

2. 了解爬蟲開發過程

1).簡要說明浏覽器工作原理；

　　1：向伺服器發起請求

　　通過HTTP庫向目标站點發起請求，即發送一個Request，請求可以包含額外的headers等資訊，等待伺服器的響應。

　　2：擷取響應内容

　　如果伺服器正常響應，會得到一個Response，Response的内容便是所要擷取的頁面内容，類型可能有HTML、JSON、二進制檔案（如圖檔、視訊等類型）。

　　3：解析内容

　　得到的内容可能是HTML，可以用正規表達式、網頁解析庫進行解析。可能是JSON，可以直接轉成JOSN對象進行解析，可能是二進制資料，可以儲存或者進一步處理

　　4：儲存内容

　　儲存形式多樣，可以儲存成文本，也可以儲存至資料庫，或者儲存成特定格式的檔案。

2).使用 requests 庫抓取網站資料；

requests.get(url) 擷取校園新聞首頁html代碼

3).了解網頁

寫一個簡單的html檔案，包含多個标簽，類，id

4).使用 Beautiful Soup 解析網頁；

通過BeautifulSoup(html_sample,'html.parser')把上述html檔案解析成DOM Tree

select（選擇器）定位資料

找出含有特定标簽的html元素

找出含有特定類名的html元素

找出含有特定id名的html元素

3.提取一篇校園新聞的标題、釋出時間、釋出機關

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'