使用的是xpath來爬的
1.先找一個很簡單網站來練習的練習
Python代碼:
運作的環境是windows下,用的是pycharm3.5
主要需要安裝的是lxml和requests,Windows下直接
pip install requests
安裝lxml,見連結:
http://blog.csdn.net/qq1815145797/article/details/78394363
import requests
from lxml import etree
headers_base={
'User-Agent': 'Fiddler/4.6.20171.26113 (.NET 4.5.2; WinNT 6.1.7601 SP1; zh-CN; 4xAMD64; Auto Update; Full Instance; Extensions: APITesting, AutoSaveExt, EventLog, Geoedge, HostsFile, RulesTab2, SAZClipboardFactory, SimpleFilter, Timeline)'
}
response=requests.get('https://www.zhihu.com/search?type=content&q=python',headers=headers_base)
html=etree.HTML(response.text)
spider_zhihu=html.xpath("//div/a[@target='_blank']/text() | //div/span/a[@class='author author-link']/text() | //div/span/a/span/text()")
for sp in spider_zhihu:
print(sp)
運作的結果部分圖:
總結
不足之處:
1.現在我隻是将它列印pycharm的終端了,接下來看書的時候可以再将其抓取到檔案中,
2.隻是抓取了一頁的内容