天天看點

每天堅持20分鐘網絡爬蟲

爬蟲的原理

遠端請求網站内容,提取資料,持久化,提供檢索

go解析html的方式

golang.org/x/net/html原生的html解析成DOM樹

正則比對

selenium直接操作浏覽器

go的chromedp庫

css選擇器goquery

xpath路徑包表達式解析網頁

json解析

app端工具

  • charles
  • mitmproxy

持久化存儲

  • mongodb
  • redis
  • mysql