天天看點

爬蟲入門

常用庫

  • requests
  • beautifulsoup bs4
  • requests-html

    接觸過爬蟲用的最多的包無非就是requests, urllib包,我們再使用這些包的時候顯示,用requests包去擷取響應,然後再利用pyquery或者bs4,xpath再去整理提取我們需要是目标資料。也就是下面兩步:

import requests

from pyquery import PyQuery as pq

#擷取網頁

html = requests.get()

#解析網頁

doc = pq(html)
           

作者:RevinDuan

連結:https://www.jianshu.com/p/bd828b9cf74d

來源:簡書

著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。