requests爬取豆瓣前250部高分電影

2023-08-06 00:43:04

這兩天又寫了一個爬取豆瓣前250部高分電影的爬蟲，并把電影名字和圖檔儲存到本地。

用的是requests和BeautifulSoup。

@requires_authorization
import requests
from bs4 import BeautifulSoup

def get_(url):
    '''
        獲得電影的名字，并且儲存電影的圖檔
    '''
    name_list = []
    turn = 
    page = url
    while turn < :
        r = requests.get(page, timeout=)
        soup = BeautifulSoup(r.text,'lxml')
        div_list = soup.find_all('div',{'class':'item'})

        for img in div_list:
            #尋找電影的名字
            movie_text = img.find('span', {'class': 'title'}).text
            name_list.append(movie_text)
            #尋找圖檔的url
            movie_img = img.find('img')['src']
            ir = requests.get(movie_img)
            #如果成功，以電影名儲存圖檔到img檔案夾
            if ir.status_code == :
                #需要在程式目錄下建立一個img檔案夾
                with open('img/'+movie_text+'.jpg', 'wb') as f:
                #with open(movie_text + '.jpg', 'wb') as f:             不需要建立檔案夾
                    f.write(ir.content)
        # 獲得下一頁的url
        turn += 
        yema =  * turn
        page = url + '?start=' + str(yema) + '&filter='
        print('完成第{}頁的儲存,共10頁'.format(turn))

    return name_list


def main():
    url = 'http://movie.douban.com/top250'
    name_list = get_(url)
    #将電影名寫入到moviename.txt
    with open('moviename.txt','w',encoding='utf-8') as f:
        for i,name in enumerate(name_list):
            f.write(name)
            f.write('\n')


if __name__=='__main__':
    main()

requests爬取豆瓣前250部高分電影

繼續閱讀

v2ex的簡單爬蟲

Python漫畫爬蟲開源 66漫畫 AJAX，包含資料庫連接配接，圖檔下載下傳處理

requests子產品進行人人網模拟登陸

Python image.show() 出錯FSPathMakeRef(/Applications/Preview.app) failed with error -43

2023爬蟲學習筆記 -- 多線程操作

M團店鋪評價采集不到問題問題展示：解決方案：

Python爬蟲學習（1）

Python爬蟲學習進階

Python爬蟲（入門+進階）學習筆記 1-2 初識Python爬蟲

Python進階爬蟲——Class1：認識爬蟲

python爬蟲學習筆記-1

python學習之urllib使用小結

NOIp模拟題之肮髒的牧師（桶排序）

一篇文章教你如何在一個月内學會爬取大規模資料

Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗

sort()函數到底是怎樣進行數字排序的