python爬虫如何用get格式

2022-11-04 11:20:07

随着互联网信息的不断发展，爬虫的应用场景特别广泛，越来越多的企业依赖于大数据获取行业信息。简单爬虫可以划分为get、post格式。其中，get是单方面的获取资源，而post存在交互，如翻译中需要文字输入。本文主要描述简单的get爬虫。

环境准备

安装第三方库

pip install requests
pip install bs4
pip install lxml

进行爬虫

1、获取网页数据

import requests
from bs4 import BeautifulSoup
url = "https://cn.bing.com/search?q=爬虫CSDN&qs=n&form=QBRE&sp=-1&pq=爬虫csdn&sc=5-6&sk=&cvid=0B13B88D8F444A0182A4A6C36E463179/"
response = requests.get(self.url)

2、解析网页数据

soup = BeautifulSoup(response.text, 'lxml')

3、选取目标数据

此处key 依据源代码目标标题的位置确定。首先进入开发者模式，后查看目标在html中的位置，右击选择“复制selector”，见下图。

key = "#b_results > li > div.b_title > h2 > a"
http://soup.select(key)

for i, item in enumerate(data):
  
    result.update({
         f'title_{i}': item.get_text(),
         f'url_{i}': item.get('href')
     })
 print(result)

python爬虫如何用get格式

继续阅读

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

HDFS命令行工具

【51CTO学院三周年】自学路上的伴侣

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开

【分类算法】什么是分类算法定义分类与聚类分类过程方法

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

浅谈企业活动中进行数据分析的重要性

Ambari介绍和架构原理

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark