了解爬蟲原理

2019-03-25 17:13:00

1. 簡單說明爬蟲原理

a.向伺服器發起請求

b.擷取響應内容

c.解析内容

d.儲存内容

2. 了解爬蟲開發過程

1).簡要說明浏覽器工作原理；

輸入url，發送請求，通過網絡連接配接，等待伺服器相應傳回資料，浏覽器出現界面

2).使用 requests 庫抓取網站資料；

requests.get(url) 擷取校園新聞首頁html代碼

url='http://news.gzcc.cn/html/xiaoyuanxinwen'
res = requests.get(url)

3).了解網頁

寫一個簡單的html檔案，包含多個标簽，類，id

html_sample = ' \

<html> \

<body> \

<h1 id="title">Hello</h1> \

<a href="#" class="link"> This is link1</a >\

<a href="# link2" class="link" qao=123> This is link2</a >\

</body> \

</html> '

4).使用 Beautiful Soup 解析網頁；

通過BeautifulSoup(html_sample,'html.parser')把上述html檔案解析成DOM Tree

select（選擇器）定位資料

找出含有特定标簽的html元素

a=soup.select('h1')[0].text
print(a)

找出含有特定類名的html元素

for i in range(len(soup.select('.link'))):
    b=soup.select('.link')[i].text
print(b)

找出含有特定id名的html元素

c=soup.select('#title')[0].text
print(c)

3.提取一篇校園新聞的标題、釋出時間、釋出機關

url='http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0322/11042.html'
res=requests.get(url)
res.encoding='utf-8'
soup1=BeautifulSoup(res.text,'html.parser')
a=soup1.select('.show-title')[0].text
b=soup1.select('.show-info')[0].text
print(a,b)