制作一個檢視器可以檢視豆瓣前100名電影的資訊,當然這個爬取資訊比較簡單。是以重點放在 QThread 多線程的應用上面。
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLicmbw5iM4QDMzcTN5gTMtQDM3ITM3IjMycTMxAjMyAjMtUzN0ITMzIzLcFDMyIDMy8CX1cDNyEzMy8CXyVGa092Lc12bj5ycn9Gbi52YuAjMwIzZtl2Lc9CX6MHc0RHaiojIsJye.png)
【閱讀全文】
QThread 子線程是 PyQt5 自帶的一個線程使用,因為如果使用 PyQt5 的主線程去做所有的事情。如果處理速度太慢的情況下主線程就會直接出現卡死狀态。
網絡資訊提取的相關子產品有下面這些,主要是一個擷取 Html 資訊,另一個解析 Html5 的頁面資訊。
import requests # 網絡請求庫
from bs4 import BeautifulSoup # H5頁面元素解析庫
from fake_useragent import UserAgent # 身份資訊生成庫
UI 界面布局相關的子產品。
from PyQt5.QtWidgets import *
from PyQt5.QtGui import *
from PyQt5.QtCore import *
應用操作相關的子產品。
import sys
先把專門用于資訊爬取的獨立線程寫好。建立一個線程類繼承自 QThread,其中最重要的是要寫上 init、del、run這幾個函數。這幾個函數對線程類 QThread 裡面的函數重寫的,業務邏輯是通過 run 函數實作的。
'''
獨立線程處理資訊爬取
'''
class DouBanWorker(QThread):
trigger = pyqtSignal(str)
finished = pyqtSignal(bool)
def __init__(self, parent=None):
super(DouBanWorker, self).__init__(parent)
self.parent = parent
self.url = 'https://movie.douban.com/top250?start={}&filter='
self.working = True
def __del__(self):
self.working = False
self.wait()
def run(self):
# 構造useragent身份裝置資訊
headers = {
"User-Agent": str(UserAgent().random),
}
for page in range(4):
url = self.url.format(page * 25)
response = requests.get(url, headers=headers)
bs = BeautifulSoup(response.text, 'html.parser')
movie_list = bs.find_all('div', class_='item')
for movie in movie_list:
movie_seq = movie.find('em').text
movie_name = movie.find('span').text
movie_score = movie.find("span", class_='rating_num').text
movie_inst = movie.find("span", class_='inq').text
movie_link = movie.find('a')['href']
self.trigger.emit('\n')
self.trigger.emit('排名:' + movie_seq + '\n')
self.trigger.emit('名稱:' + movie_name + '\n')
self.trigger.emit('評分:' + movie_score + '\n')
self.trigger.emit('描述:' + movie_inst + '\n')
movie_link = "<font color='blue'>" + movie_link + "</font>"
self.trigger.emit('連結:' + movie_link + '\n')
self.finished.emit(True)
主界面的 UI 布局資訊比較簡單,主要是一個文本浏覽器和一個開始的按鈕組成的。
def init_ui(self):
'''
初始化UI界面布局
:return:
'''
self.setWindowTitle('豆瓣電影排名')
self.setWindowIcon(QIcon('電影.ico'))
self.resize(400, 300)
vbox = QVBoxLayout()
self.result_brower = QTextBrowser()
self.result_brower.setFont(QFont('宋體', 8))
self.result_brower.setReadOnly(True)
self.result_brower.setPlaceholderText('資訊展示區域')
self.result_brower.ensureCursorVisible()
vbox.addWidget(self.result_brower)
self.thread_ = DouBanWorker(self)
self.thread_.trigger.connect(self.update_log)
self.thread_.finished.connect(self.finished)
self.start_btn = QPushButton()
self.start_btn.setText('擷取前100名豆瓣電影詳細資訊')
self.start_btn.clicked.connect(self.start_btn_click)
vbox.addWidget(self.start_btn)
self.setLayout(vbox)
文本浏覽器内容保持追加更新的槽函數,将電影資訊擷取的實施進度追加到頁面上可以看到。
def update_log(self, text):
'''
槽函數:向文本浏覽器中寫入内容
:param text:
:return:
'''
cursor = self.result_brower.textCursor()
cursor.movePosition(QTextCursor.End)
self.result_brower.append(text)
self.result_brower.setTextCursor(cursor)
self.result_brower.ensureCursorVisible()
開始按鈕上關聯的槽函數,用這個函數在收到主線程的開始指令時來啟動子線程的運作,子線程就會自動去爬取豆瓣上面的排名資訊。
def start_btn_click(self):
'''
槽函數:啟動子線程爬取豆瓣電影資訊
:return:
'''
self.start_btn.setEnabled(False)
self.thread_.start()
在收到子線程執行完成的資訊時,将開始按鈕完成可用的狀态可以點選再次執行。
def finished(self, finished):
'''
槽函數:處理完成時将開始按鈕變成可點選狀态
:param finished:
:return:
'''
if finished is True:
self.start_btn.setEnabled(True)
完成後,啟動背景入口函數,最後看一下入口函數的寫法和往常是一樣的。
if __name__ == '__main__':
'''
主函數入口
'''
app = QApplication(sys.argv)
main = DouBanUI()
main.show()
sys.exit(app.exec_())
示例代碼塊都是經過測試的,有不合适的地方歡迎大家留言交流。
我是 [Python 集中營]、很高興您看到了最後, 我是一個專注于 Python 知識分享的公衆号,希望可以得到您的關注~
【往期精彩】
PyQt5 最小化到托盤,更新小鬧鐘...
pyinstaller打包exe檔案太大,利用pipenv輕松解決!
PyQt5 小工具:Excel資料分組彙總器...
異常:存儲MYSQL轉義資料保證資料存儲的準确性...
做一個小鬧鐘,按規劃做事...
歡迎關注作者公衆号【Python 集中營】,專注于後端程式設計,每天更新技術幹貨,不定時分享各類資料!