天天看点

下一代爬虫框架

作者:GitHub项目精选

大家好,又见面了,我是 GitHub 精选君!

今天要给大家推荐一个 GitHub 开源项目 projectdiscovery/katana,该项目在 GitHub 有超过 5.3k Star,用一句话介绍该项目就是:“A next-generation crawling and spidering framework.”,下一代爬虫框架。

下一代爬虫框架
下一代爬虫框架

image

katana 是一个爬虫工具,具备如下功能,能够高度配置化进行网页抓取,同时支持无浏览器方式的抓取,且对命令行的支持友好,支持通过管道进行输入输出的控制。

下一代爬虫框架

katana 使用 Go 开发,并且可通过命令行和工具库引入的方式使用,通过如下命令即可安装使用。

go install github.com/projectdiscovery/katana/cmd/katana@latest           

安装好后,如果通过命令使用,有非常多的参数的支持。

下一代爬虫框架

以下是一个使用示例,默认会对目标网站进行子链接的解析。

下一代爬虫框架

也可以通过包引入的方式进行定制化的开发,但是我觉得 katana 的亮点就是命令行支持的友好。

更多项目详情请查看如下链接。

开源项目地址:https://github.com/projectdiscovery/katana (文末可点击阅读原文)

开源项目作者:katana

关注我们,一起探索有意思的开源项目。

继续阅读