天天看点

爬虫性能比较爬虫性能比较

爬虫性能比较

正则表达式、bs4、lxml三种网页抓取方法优缺点:

抓取方法 性能 使用难度 安装难度
正则表达式 困难 简单
bs4 简单 简单
lxml 简单 相对困难

如果你的爬虫瓶颈是下载网页(可以理解为网速快慢),而不是抽取数据的话,那么使用较慢的方法(如 Beautiful Soup)也不成问题。正则表达式在一次性抽取中非常有用,此外还可以避免解析整个网页带来的开销,如果只需抓取少量数据,并且想要避免额外依赖的话,那么正则表达式可能更加适合。不过,通常情况下,lxml 是抓取数据的最好选择,这是因为它不仅速度快,功能也更加丰富,而正则表达式和 Beautiful Soup只在某些特定场景下有用。

xpath定位和css定位对比

实际项目中使用较多的是xpath定位和css定位。XPath是XML文档中查找结点的语法,换句话就是通过元素的路径来查找这个元素。xpath比较强大,而css选择器在性能上更优,运行速度更快,语法上更简洁。