爬蟲的原理
遠端請求網站内容,提取資料,持久化,提供檢索
go解析html的方式
golang.org/x/net/html原生的html解析成DOM樹
正則比對
selenium直接操作浏覽器
go的chromedp庫
css選擇器goquery
xpath路徑包表達式解析網頁
json解析
app端工具
- charles
- mitmproxy
持久化存儲
- mongodb
- redis
- mysql
遠端請求網站内容,提取資料,持久化,提供檢索
golang.org/x/net/html原生的html解析成DOM樹
正則比對
selenium直接操作浏覽器
go的chromedp庫
css選擇器goquery
xpath路徑包表達式解析網頁
json解析
app端工具
持久化存儲