寫爬蟲時,需要的html和用requests.get傳回的html不一樣導緻後面用bs老出錯
requests.get()擷取不到正确的源代碼HTML
# 1. 擷取網頁資料
url = 'https://movie.douban.com/top250'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
}
response = requests.get(url, headers=headers)
# 2. 解析資料
soup = BeautifulSoup(response.text, 'lxml')
這個不行
# 指定要爬取的網站
url = 'http://www.360doc.com/index.html?type=36&classid=19'
soup = getsoup(url)
print(soup)
# 錯了這麼多,soup中竟沒有
imgList =soup.select('.c5_ul3>li') # 上下兩标簽内容 .class名>下級 标簽
試了下下面的網址不行,更換headers一樣不同:
#擷取網頁資料
url = 'https://movie.douban.com/tv'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
}
response = requests.get(url, headers=headers)
# 2. 解析資料
soup = BeautifulSoup(response.text, 'lxml')
這個庫,沒看出來為什麼,有的網頁可以,有的卻是錯的