了解爬蟲原理

2019-03-26 23:41:00

1. 簡單說明爬蟲原理

2. 了解爬蟲開發過程

1).簡要說明浏覽器工作原理；

2).使用 requests 庫抓取網站資料；

了解爬蟲原理

requests.get(url) 擷取校園新聞首頁html代碼

了解爬蟲原理

3).了解網頁

寫一個簡單的html檔案，包含多個标簽，類，id

了解爬蟲原理

4).使用 Beautiful Soup 解析網頁；

通過BeautifulSoup(html_sample,'html.parser')把上述html檔案解析成DOM Tree

select（選擇器）定位資料

找出含有特定标簽的html元素

找出含有特定類名的html元素

找出含有特定id名的html元素

了解爬蟲原理

3.提取一篇校園新聞的标題、釋出時間、釋出機關

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

了解爬蟲原理

得到結果：

了解爬蟲原理

上一篇: Hadoop綜合大作業

下一篇: 字元串、檔案操作，英文詞頻統計預處理