1.爬蟲原理:
向網站發起請求,擷取資源後分析并提取有用資料的程式;
從技術層面來說就是 通過程式模拟浏覽器請求站點的行為,把站點傳回的HTML代碼/JSON資料/二進制資料(圖檔、視訊) 爬到本地,進而提取自己需要的資料,存放起來使用。
2.爬蟲開發過程:
(1)、 浏覽器工作原理:
浏覽器工作原理的實質就是實作http協定的通訊,具體過程如下:
連接配接 伺服器通過一個ServerSocket類對象對8000端口進行監聽,監聽到之後建立連接配接,打開一個socket虛拟檔案。
請求 建立與建立socket連接配接相關的流對象後,浏覽器擷取請求,為GET請求,則從請求資訊中擷取所通路的HTML檔案名,向伺服器發送請求。
應答 服務收到請求後,搜尋相關目錄檔案,若不存在,傳回錯誤資訊。若存在,則想html檔案,進行加HTTP頭等處理後響應給浏覽器,浏覽器解析html檔案,若其中還包含圖檔,視訊等請求,則浏覽器再次通路web伺服器,異常擷取圖檔視訊等,并對其進行組裝顯示出來。
(2)、使用 requests 庫抓取網站資料:

<!DOCTYPE html>
<html>
<head>
<title>這個是标題</title>
</head>
<body>
<h1 class="title-article">這是一個一個簡單的HTML
<p>Hello World!</p>
</h1>
<h2>這是一個h2</h2>
<h3>這是一個h3</h3>
<h4>這是一個h4</h4>
<h5>這是一個h5
<p id="title">Hello World!</p>
<p>Hello World!</p>
<h6>這是一個h6</h6>
<p>Hello World!</p>
</h5>
</body>
</html>
(4)、使用 Beautiful Soup 解析網頁:
輸出該網頁中所有的a标簽。
找出類名為search-input的标簽。
找出id名為menu的标簽。
3.提取一篇校園新聞的标題、釋出時間、釋出機關
url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'