天天看點

了解爬蟲原理

作業要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851

1. 簡單說明爬蟲原理

簡單來說網際網路是由一個個站點和網絡裝置組成的大網,我們通過浏覽器通路站點,站點把HTML、JS、CSS代碼傳回給浏覽器,這些代碼經過浏覽器解析、渲染,将豐富多彩的網頁呈現我們眼前

2. 了解爬蟲開發過程

1).簡要說明浏覽器工作原理(流程)

(1):向伺服器發起請求,通過HTTP庫向目标站點發起請求,即發送一個Request,請求可以包含額外的headers等資訊,等待伺服器的響應。

(2):擷取響應内容 如果伺服器正常響應,會得到一個Response,Response的内容便是所要擷取的頁面内容,類型可能有HTML、JSON、二進制檔案(如圖檔、視訊等類型)。

(3):解析内容 得到的内容可能是HTML,可以用正規表達式、網頁解析庫進行解析。可能是JSON,可以直接轉成JOSN對象進行解析,可能是二進制資料,可以儲存或者進一步處理

(4):儲存内容 儲存形式多樣,可以儲存成文本,也可以儲存至資料庫,或者儲存成特定格式的檔案。

2).使用 requests 庫抓取網站資料;

requests.get(url) 擷取校園新聞首頁html代碼

url='http://news.gzcc.cn/html/xiaoyuanxinwen/'
res=requests.get(url)      

3).了解網頁

寫一個簡單的html檔案

<html>
<head>
<meta charset="utf-8">
<title>html簡單執行個體</title>
</head>
<body>
 <h1>這是第一個标題</h1>
 <h2>這是第二個标題</h2>
 <h3>這是第三個标題</h3>
 <h4>這是第四個标題</h4>
 <h5>這是第五個标題</h5>
 <h6>這是第六個标題</h6>
 <p>這是個段落</p>
 <hr />
 <!---這是一條水準線--->
<font side = "6">這是六号<br>字型</font>
 </body>
</html>      

4).使用 Beautiful Soup 解析網頁;

(1)輸出該網頁中所有的a标簽

了解爬蟲原理

(2)輸出類名為search-input的标簽

了解爬蟲原理

 (3)輸出id名為menu的标簽。

了解爬蟲原理

3.提取一篇校園新聞的标題、釋出時間、釋出機關

了解爬蟲原理