一、概述

對于一個宅男，喜歡看電影，每次打開電影網站，各種彈出的廣告，很是麻煩，還是要自己去複制下載下傳連結到迅雷上粘貼并下載下傳，這個過程中還有選擇困難症;這一系列的動作讓人甚是不爽，不如有下好的，點着看就好了;作為一個python愛好者，結合對爬蟲的一點小了解，于是周末花了點時間用python寫了一個爬取某電影網站上的最新電影闆塊;

思路：

爬蟲針對某電影網站，收集電影名，下載下傳連結，評分，等資訊;當天更新的電影，特别的列印出來;同時通過評分調用迅雷下載下傳，當然先判斷下，是否已經下載下傳過了，再決定是否下載下傳;然後，就是可以看了～

本次版本是基于python3.x下通過，在windows上才能調用迅雷～linux平台隻能擷取相關資訊！

python安裝和相關的子產品安裝這裡不講述，如有不明白請留言我～

jupyter上運作如下：

二、代碼

廢話不多說上代碼吧～

# coding:utf-8
# version 20181027 by san
import re,time,os
from urllib import request
from lxml import etree  # python xpath 單獨使用導入是這樣的
import platform
import ssl
ssl._create_default_https_context = ssl._create_unverified_context   # 取消全局證書

#爬蟲電影之類
class getMovies:
    def __init__(self,url,Thuder):
        '''        執行個體初始化       '''
        self.url = url
        self.Thuder = Thuder

    def getResponse(self,url):
        url_request = request.Request(self.url)
        url_response = request.urlopen(url_request)
        return url_response   #傳回這個對象

    def newMovie(self):
        ''' 擷取最新電影 下載下傳位址與url '''
        http_response = self.getResponse(webUrl) #拿到http請求後的上下文對象(HTTPResponse object)
        data = http_response.read().decode('gbk')
        #print(data)  #擷取網頁内容
        html = etree.HTML(data)
        newMovies = dict()
        lists = html.xpath('/html/body/div[1]/div/div[3]/div[2]/div[2]/div[1]/div/div[2]/div[2]/ul/table//a')
        for k in lists:
            if "app.html" in k.items()[0][1] or "最新電影下載下傳" in k.text:
                continue
            else:
                movieUrl = webUrl + k.items()[0][1]
                movieName = k.text.split('《')[1].split("》")[0]
                newMovies[k.text.split('《')[1].split("》")[0]] = movieUrl = webUrl + k.items()[0][1]
        return newMovies

  def Movieurl(self,url):
        ''' 擷取評分和更新時間 '''
        url_request = request.Request(url)
        movie_http_response = request.urlopen(url_request)
        data = movie_http_response.read().decode('gbk')
        if len(re.findall(r'豆瓣評分.+?.+users',data)):  # 擷取評分;沒有評分的傳回null
            pingf = re.findall(r'豆瓣評分.+?.+users',data)[0].split('/')[0].replace("\u3000",":")

        else:
            pingf = "豆瓣評分:null"
        desc = re.findall(r'簡\s+介.*',data)[0].replace("\u3000","").replace('<br />',"").split("src")[0].replace('&ldquo',"").replace('&rdquo',"").replace('<img border="0"',"")

        times = re.findall(r'釋出時間.*',data)[0].split('\r')[0].strip()   # 擷取影片釋出時間
        html = etree.HTML(data)
        murl = html.xpath('//*[@id="Zoom"]//a')
        for k in murl:
            for l in k.items():
                if "ftp://" in l[1]:
                    print
                    return l[1],times,pingf,desc

    def check_end(self,fiename,path):
        ''' 檢測檔案是否下載下傳完成 '''
        return os.path.exists(os.path.join(save_path,fiename))

    def check_start(self,filename):
        ''' 檢測檔案是否開始下載下傳 '''
        cache_file = filename+".xltd"
        return os.path.exists(os.path.join(save_path,cache_file))

    def DownMovies(self,name,url):
        ''' windows下載下傳 '''
        PlatForm = platform.system()
        print("即将下載下傳的電影是：%s" %name)
        if PlatForm == "Windows":
            try:
                print(r'"{0}" "{1}"'.format(self.Thuder,url))
                os.system(r'"{0}" {1}'.format(self.Thuder,url))
            except Exception as e:
                print(e)
        else:
            print("目前系統平台不支援")

    def Main(self):
        ''' 最終新電影存儲在字典中 '''
        NewMoveis = dict()  
        Movies = self.newMovie()  # 擷取電影的字典資訊
        for k,v in Movies.items():
            NewMoveis[k] = self.Movieurl(v),v
        return NewMoveis

    def NewMoives(self):
        ''' 檢視已經擷取到的電影資訊 '''
        Today = time.strftime("%Y-%m-%d")
        print("今天是：%s" %Today)
        Movies = self.Main()
        print("最近的 %s 部新電影：" % len(Movies.keys()))
        for k,v in Movies.items():
#           print(v[0][1].split(":")[0])
            if Today in v[0][1].split(":")[0]:
                print("++++++++++++++++今天剛更新++++++++++++++：","\n",k,"-->",v,"\n")
            else:
                print("========================================")
                print(k,"-->",v,"\n")

if __name__ == '__main__':
    # 以下依據您個人電影迅雷的相關資訊填寫即可
    save_path="O:\迅雷下載下傳"     # 電影下載下傳儲存位置 （需要填寫）
    Thuder = "O:\Program\Thunder.exe"   #Thuder: 迅雷Thuder.exe路徑 （需要填寫）
    webUrl = 'http://www.dytt8.net'     # 電影網站
    test = getMovies(webUrl,Thuder)   # 執行個體化
    test.NewMoives()
    Movies = test.Main()

    for k,v in Movies.items():
        movies_name = v[0][0].split('/')[3]
        socre = v[0][2].split(":")[1]
        check_down_status = test.check_end(movies_name,save_path)
#       print(check_down_status)
        if  check_down_status:
            print("電影: %s 已經下載下傳" %movies_name)
            continue
        elif  socre == 'null':
            continue
        elif float(socre) > 7.0:
            print(movies_name,socre)
            test.DownMovies(k,v[0][0])
            time.sleep(10)

注意：以上代碼是針對windows平台下，迅雷版本為非極速版本，本次使用的是9.14 如圖：

另外需要勾選以下配置項，否則程式調用迅雷下載下傳時會有提示框：

程式運作效果如圖：

python爬取電影并下載下傳一、概述二、代碼

一、概述

二、代碼

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入