天天看點

python爬蟲 requests.get()傳回值與html網頁不一緻

寫爬蟲時,需要的html和用requests.get傳回的html不一樣導緻後面用bs老出錯

requests.get()擷取不到正确的源代碼HTML

# 1. 擷取網頁資料
url = 'https://movie.douban.com/top250'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
}
response = requests.get(url, headers=headers)

# 2. 解析資料
soup = BeautifulSoup(response.text, 'lxml')
           

這個不行

# 指定要爬取的網站
    url = 'http://www.360doc.com/index.html?type=36&classid=19'
    soup = getsoup(url)
    print(soup)
    # 錯了這麼多,soup中竟沒有
    imgList =soup.select('.c5_ul3>li') # 上下兩标簽内容 .class名>下級 标簽
           

試了下下面的網址不行,更換headers一樣不同:

#擷取網頁資料
url = 'https://movie.douban.com/tv'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
}
response = requests.get(url, headers=headers)

# 2. 解析資料
soup = BeautifulSoup(response.text, 'lxml')
           

這個庫,沒看出來為什麼,有的網頁可以,有的卻是錯的