爬蟲原理作業

1.爬蟲原理:

向網站發起請求，擷取資源後分析并提取有用資料的程式；

從技術層面來說就是通過程式模拟浏覽器請求站點的行為，把站點傳回的HTML代碼/JSON資料/二進制資料（圖檔、視訊）爬到本地，進而提取自己需要的資料，存放起來使用。

2.爬蟲開發過程：

（1）、浏覽器工作原理：

浏覽器工作原理的實質就是實作http協定的通訊，具體過程如下：

連接配接伺服器通過一個ServerSocket類對象對8000端口進行監聽，監聽到之後建立連接配接，打開一個socket虛拟檔案。

請求建立與建立socket連接配接相關的流對象後，浏覽器擷取請求，為GET請求，則從請求資訊中擷取所通路的HTML檔案名，向伺服器發送請求。

應答服務收到請求後，搜尋相關目錄檔案，若不存在，傳回錯誤資訊。若存在，則想html檔案，進行加HTTP頭等處理後響應給浏覽器，浏覽器解析html檔案，若其中還包含圖檔，視訊等請求，則浏覽器再次通路web伺服器，異常擷取圖檔視訊等，并對其進行組裝顯示出來。

（2）、使用 requests 庫抓取網站資料：

（3）、了解網頁，寫一個簡單的HTML代碼：

<!DOCTYPE html>
<html>
    <head>
        <title>這個是标題</title>
    </head>
    <body>
        <h1 class="title-article">這是一個一個簡單的HTML
            <p>Hello World！</p>
        </h1>
        <h2>這是一個h2</h2>
        <h3>這是一個h3</h3>
        <h4>這是一個h4</h4>
        <h5>這是一個h5
            <p id="title">Hello World！</p>
            <p>Hello World！</p>
            <h6>這是一個h6</h6>
            <p>Hello World！</p>
        </h5>
    </body>
</html>

（4）、使用 Beautiful Soup 解析網頁：

輸出該網頁中所有的a标簽。

找出類名為search-input的标簽。

找出id名為menu的标簽。

3.提取一篇校園新聞的标題、釋出時間、釋出機關

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'