天天看點

下一代爬蟲架構

作者:GitHub項目精選

大家好,又見面了,我是 GitHub 精選君!

今天要給大家推薦一個 GitHub 開源項目 projectdiscovery/katana,該項目在 GitHub 有超過 5.3k Star,用一句話介紹該項目就是:“A next-generation crawling and spidering framework.”,下一代爬蟲架構。

下一代爬蟲架構
下一代爬蟲架構

image

katana 是一個爬蟲工具,具備如下功能,能夠高度配置化進行網頁抓取,同時支援無浏覽器方式的抓取,且對指令行的支援友好,支援通過管道進行輸入輸出的控制。

下一代爬蟲架構

katana 使用 Go 開發,并且可通過指令行和工具庫引入的方式使用,通過如下指令即可安裝使用。

go install github.com/projectdiscovery/katana/cmd/katana@latest           

安裝好後,如果通過指令使用,有非常多的參數的支援。

下一代爬蟲架構

以下是一個使用示例,預設會對目标網站進行子連結的解析。

下一代爬蟲架構

也可以通過包引入的方式進行定制化的開發,但是我覺得 katana 的亮點就是指令行支援的友好。

更多項目詳情請檢視如下連結。

開源項目位址:https://github.com/projectdiscovery/katana (文末可點選閱讀原文)

開源項目作者:katana

關注我們,一起探索有意思的開源項目。

繼續閱讀