一、概述
對于一個宅男,喜歡看電影,每次打開電影網站,各種彈出的廣告,很是麻煩,還是要自己去複制下載下傳連結到迅雷上粘貼并下載下傳,這個過程中還有選擇困難症;這一系列的動作讓人甚是不爽,不如有下好的,點着看就好了;作為一個python愛好者,結合對爬蟲的一點小了解,于是周末花了點時間用python寫了一個爬取某電影網站上的最新電影闆塊;
思路:
爬蟲針對某電影網站,收集電影名,下載下傳連結,評分,等資訊;當天更新的電影,特别的列印出來;同時通過評分調用迅雷下載下傳,當然先判斷下,是否已經下載下傳過了,再決定是否下載下傳;然後,就是可以看了~
本次版本是基于python3.x下通過,在windows上才能調用迅雷~linux平台隻能擷取相關資訊!
python安裝和相關的子產品安裝這裡不講述,如有不明白請留言我~
jupyter上運作如下:
二、代碼
廢話不多說上代碼吧~
# coding:utf-8
# version 20181027 by san
import re,time,os
from urllib import request
from lxml import etree # python xpath 單獨使用導入是這樣的
import platform
import ssl
ssl._create_default_https_context = ssl._create_unverified_context # 取消全局證書
#爬蟲電影之類
class getMovies:
def __init__(self,url,Thuder):
''' 執行個體初始化 '''
self.url = url
self.Thuder = Thuder
def getResponse(self,url):
url_request = request.Request(self.url)
url_response = request.urlopen(url_request)
return url_response #傳回這個對象
def newMovie(self):
''' 擷取最新電影 下載下傳位址與url '''
http_response = self.getResponse(webUrl) #拿到http請求後的上下文對象(HTTPResponse object)
data = http_response.read().decode('gbk')
#print(data) #擷取網頁内容
html = etree.HTML(data)
newMovies = dict()
lists = html.xpath('/html/body/div[1]/div/div[3]/div[2]/div[2]/div[1]/div/div[2]/div[2]/ul/table//a')
for k in lists:
if "app.html" in k.items()[0][1] or "最新電影下載下傳" in k.text:
continue
else:
movieUrl = webUrl + k.items()[0][1]
movieName = k.text.split('《')[1].split("》")[0]
newMovies[k.text.split('《')[1].split("》")[0]] = movieUrl = webUrl + k.items()[0][1]
return newMovies
def Movieurl(self,url):
''' 擷取評分和更新時間 '''
url_request = request.Request(url)
movie_http_response = request.urlopen(url_request)
data = movie_http_response.read().decode('gbk')
if len(re.findall(r'豆瓣評分.+?.+users',data)): # 擷取評分;沒有評分的傳回null
pingf = re.findall(r'豆瓣評分.+?.+users',data)[0].split('/')[0].replace("\u3000",":")
else:
pingf = "豆瓣評分:null"
desc = re.findall(r'簡\s+介.*',data)[0].replace("\u3000","").replace('<br />',"").split("src")[0].replace('&ldquo',"").replace('&rdquo',"").replace('<img border="0"',"")
times = re.findall(r'釋出時間.*',data)[0].split('\r')[0].strip() # 擷取影片釋出時間
html = etree.HTML(data)
murl = html.xpath('//*[@id="Zoom"]//a')
for k in murl:
for l in k.items():
if "ftp://" in l[1]:
print
return l[1],times,pingf,desc
def check_end(self,fiename,path):
''' 檢測檔案是否下載下傳完成 '''
return os.path.exists(os.path.join(save_path,fiename))
def check_start(self,filename):
''' 檢測檔案是否開始下載下傳 '''
cache_file = filename+".xltd"
return os.path.exists(os.path.join(save_path,cache_file))
def DownMovies(self,name,url):
''' windows下載下傳 '''
PlatForm = platform.system()
print("即将下載下傳的電影是:%s" %name)
if PlatForm == "Windows":
try:
print(r'"{0}" "{1}"'.format(self.Thuder,url))
os.system(r'"{0}" {1}'.format(self.Thuder,url))
except Exception as e:
print(e)
else:
print("目前系統平台不支援")
def Main(self):
''' 最終新電影存儲在字典中 '''
NewMoveis = dict()
Movies = self.newMovie() # 擷取電影的字典資訊
for k,v in Movies.items():
NewMoveis[k] = self.Movieurl(v),v
return NewMoveis
def NewMoives(self):
''' 檢視已經擷取到的電影資訊 '''
Today = time.strftime("%Y-%m-%d")
print("今天是:%s" %Today)
Movies = self.Main()
print("最近的 %s 部新電影:" % len(Movies.keys()))
for k,v in Movies.items():
# print(v[0][1].split(":")[0])
if Today in v[0][1].split(":")[0]:
print("++++++++++++++++今天剛更新++++++++++++++:","\n",k,"-->",v,"\n")
else:
print("========================================")
print(k,"-->",v,"\n")
if __name__ == '__main__':
# 以下依據您個人電影迅雷的相關資訊填寫即可
save_path="O:\迅雷下載下傳" # 電影下載下傳儲存位置 (需要填寫)
Thuder = "O:\Program\Thunder.exe" #Thuder: 迅雷Thuder.exe路徑 (需要填寫)
webUrl = 'http://www.dytt8.net' # 電影網站
test = getMovies(webUrl,Thuder) # 執行個體化
test.NewMoives()
Movies = test.Main()
for k,v in Movies.items():
movies_name = v[0][0].split('/')[3]
socre = v[0][2].split(":")[1]
check_down_status = test.check_end(movies_name,save_path)
# print(check_down_status)
if check_down_status:
print("電影: %s 已經下載下傳" %movies_name)
continue
elif socre == 'null':
continue
elif float(socre) > 7.0:
print(movies_name,socre)
test.DownMovies(k,v[0][0])
time.sleep(10)
注意:以上代碼是針對windows平台下,迅雷版本為非極速版本,本次使用的是9.14 如圖:
另外需要勾選以下配置項,否則程式調用迅雷下載下傳時會有提示框:
程式運作效果如圖: