天天看點

爬蟲原理作業

1.爬蟲原理:

向網站發起請求,擷取資源後分析并提取有用資料的程式;

從技術層面來說就是 通過程式模拟浏覽器請求站點的行為,把站點傳回的HTML代碼/JSON資料/二進制資料(圖檔、視訊) 爬到本地,進而提取自己需要的資料,存放起來使用。

2.爬蟲開發過程:

(1)、 浏覽器工作原理:

浏覽器工作原理的實質就是實作http協定的通訊,具體過程如下:

連接配接 伺服器通過一個ServerSocket類對象對8000端口進行監聽,監聽到之後建立連接配接,打開一個socket虛拟檔案。

 請求 建立與建立socket連接配接相關的流對象後,浏覽器擷取請求,為GET請求,則從請求資訊中擷取所通路的HTML檔案名,向伺服器發送請求。

 應答 服務收到請求後,搜尋相關目錄檔案,若不存在,傳回錯誤資訊。若存在,則想html檔案,進行加HTTP頭等處理後響應給浏覽器,浏覽器解析html檔案,若其中還包含圖檔,視訊等請求,則浏覽器再次通路web伺服器,異常擷取圖檔視訊等,并對其進行組裝顯示出來。

(2)、使用 requests 庫抓取網站資料:

爬蟲原理作業
(3)、了解網頁,寫一個簡單的HTML代碼:

<!DOCTYPE html>
<html>
    <head>
        <title>這個是标題</title>
    </head>
    <body>
        <h1 class="title-article">這是一個一個簡單的HTML
            <p>Hello World!</p>
        </h1>
        <h2>這是一個h2</h2>
        <h3>這是一個h3</h3>
        <h4>這是一個h4</h4>
        <h5>這是一個h5
            <p id="title">Hello World!</p>
            <p>Hello World!</p>
            <h6>這是一個h6</h6>
            <p>Hello World!</p>
        </h5>
    </body>
</html>
      

 (4)、使用 Beautiful Soup 解析網頁:

輸出該網頁中所有的a标簽。

爬蟲原理作業

找出類名為search-input的标簽。

爬蟲原理作業

找出id名為menu的标簽。

爬蟲原理作業

3.提取一篇校園新聞的标題、釋出時間、釋出機關

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

爬蟲原理作業