前言

這次的是一個系列内容

給大家講解一下何一步一步實作一個完整的實戰項目案例系列之

小說下載下傳神器（三）（GUI界面化程式）

多線程采集小說下載下傳、采集排行榜所有小說

哈喽！大家上午好啦，我是愛看小說的栗子同學。

所有文章完整的素材+源碼都在👇👇
粉絲白嫖源碼福利，請移步至CSDN社群或文末公衆hao即可免費。

今天這一期就如開頭寫的内容一樣，接着來學習小說下載下傳，下一期就寫搜尋界面跟GUI界面

啦~下一期就是小說下載下傳器的最後一篇文章。

好啦，話不多說直接開始今天的正題吧！

主要内容：用Python代碼實作多線程方式采集小說以及采集排行榜所有小說内容。

Python實戰之小說下載下傳神器（三）排行榜所有小說：最全熱門小說合集，總有一款适合你，好多好多好多超贊的小說...（源碼分享學習）前言正文總結

正文

一、運作環境

本文用到的環境如下—— Python3、Pycharm社群版，第三方子產品：requests等

部分自帶的庫隻要安裝完 Python就可以直接使用了需要安裝的庫的話看教程下🎐

一般安裝：pip install +子產品名 

 鏡像源安裝：pip install -i https://pypi.douban.com/simple/+子產品名

二、多線程采集小說

代碼注釋的很清楚的，對家可以看着學習。

1）主程式

"""
# 導入資料請求子產品 --> 第三方子產品, 需要安裝
import requests
# 導入正規表達式子產品 --> 内置子產品, 不需要安裝
import re
# 導入資料解析子產品 --> 第三方子產品, 需要安裝
import parsel
# 導入檔案操作子產品 --> 内置子產品, 不需要安裝
import os
# 導入線程池
import concurrent.futures


def get_response(html_url):
    """
    發送請求函數
    :param html_url: 請求連結
    :return: response響應對象
    """
    # 模拟浏覽器 headers 請求頭
    headers = {
        # user-agent 使用者代理 表示浏覽器基本身份資訊
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)
    return response


def get_list_url(html_url):
    """
    擷取章節url/小說名
    :param html_url: 小說目錄頁
    :return:
    """
    # 調用發送請求函數
    html_data = get_response(html_url).text
    # 提取小說名字
    name = re.findall('<h1>(.*?)</h1>', html_data)[0]
    # 提取章節url
    url_list = re.findall('<dd> <a style="" href="(.*?)" target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow" >', html_data)
    return name, url_list


def get_content(html_url):
    """
    擷取小說内容/小說标題
    :param html_url: 小說章節url
    :return:
    """
    # 調用發送請求函數
    html_data = get_response(html_url).text
    # 提取标題
    title = re.findall('<h1>(.*?)</h1>', html_data)[0]
    # 提取内容
    content = re.findall('<div id="content">(.*?)<p>', html_data, re.S)[0].replace('<br/><br/>', '\n')
    return title, content


def save(name, title, content):
    """
    儲存資料函數
    :param name: 小說名
    :param title: 章節名
    :param content: 内容
    :return:
    """
    # 自動建立一個檔案夾
    file = f'{name}\\'
    if not os.path.exists(file):
        os.mkdir(file)
    with open(file + title + '.txt', mode='a', encoding='utf-8') as f:
        """
        第一章 标題
            小說内容
        第二章 标題
            小說内容
        """
        # 寫入内容
        f.write(title)
        f.write('\n')
        f.write(content)
        f.write('\n')
    print(title, '已經儲存')


def main(home_url):
    # index_url = 'https://www.biqudu.net' + url
    title, content = get_content(html_url=home_url)
    save(name, title, content)


if __name__ == '__main__':
    url = 'https://www.biqudu.net/1_1631/'
    name, url_list = get_list_url(html_url=url)
    exe = concurrent.futures.ThreadPoolExecutor(max_workers=7)
    for url in url_list:
        index_url = 'https://www.biqudu.net' + url
        exe.submit(main, index_url)
    exe.shutdown()


# # 請求連結: 小說目錄頁
# list_url = 'https://www.biqudu.net/1_1631/'
# # 模拟浏覽器 headers 請求頭
# headers = {
#     # user-agent 使用者代理 表示浏覽器基本身份資訊
#     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
# }
# # 發送請求
# html_data = requests.get(url=list_url, headers=headers).text
# # 提取小說名字
# name = re.findall('<h1>(.*?)</h1>', html_data)[0]
# # 自動建立一個檔案夾
# file = f'{name}\\'
# if not os.path.exists(file):
#     os.mkdir(file)
#
# # 提取章節url
# url_list = re.findall('<dd> <a style="" href="(.*?)" target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow" >', html_data)
# # for循環周遊
# for url in url_list:
#     index_url = 'https://www.biqudu.net' + url
#     print(index_url)
#     """
#     1. 發送請求, 模拟浏覽器對于url位址發送請求
#         請求連結: https://www.biqudu.net/1_1631/3047505.html
#         安裝子產品方法:
#             - win + R 輸入cmd, 輸入安裝指令 pip install requests
#             - 在pycharm終端, 輸入安裝指令
#         模拟浏覽器 headers 請求頭:
#             字典資料結構
#         AttributeError: 'set' object has no attribute 'items'
#             因為headers不是字典資料類型, 而是set集合
#     """
#     # # 請求連結
#     # url = 'https://www.biqudu.net/1_1631/3047506.html'
#     # 模拟浏覽器 headers 請求頭
#     headers = {
#         # user-agent 使用者代理 表示浏覽器基本身份資訊
#         'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
#     }
#     # 發送請求
#     response = requests.get(url=index_url, headers=headers)
#     # <Response [200]> 響應對象, 表示請求成功
#     print(response)
#     """
#     2. 擷取資料, 擷取伺服器傳回響應資料内容
#         開發者工具: response
#         response.text --> 擷取響應文本資料 <網頁源代碼/html字元串資料>
#     3. 解析資料, 提取我們想要的資料内容
#         标題/内容
#
#     re正規表達式: 是直接對于字元串資料進行解析
#         re.findall('什麼資料', '什麼地方') --> 從什麼地方, 去找什麼資料
#         .*? --> 可以比對任意資料, 除了\n換行符
#         # 提取标題
#         title = re.findall('<h1>(.*?)</h1>', response.text)[0]
#         # 提取内容
#         content = re.findall('<div id="content">(.*?)<p>', response.text, re.S)[0].replace('<br/><br/>', '\n')
#
#     css選擇器: 根據标簽屬性提取資料
#         .bookname h1::text
#             類名為bookname下面h1标簽裡面文本
#         get() --> 提取第一個标簽資料内容 傳回字元串
#         getall() --> 提取多個資料, 傳回清單
#         # 提取标題
#         title = selector.css('.bookname h1::text').get()
#         # 提取内容
#         content = '\n'.join(selector.css('#content::text').getall())
#
#     xpath節點提取: 提取标簽節點提取資料
#
#     """
#     # 擷取下來response.text <html字元串資料>, 轉成可解析對象
#     selector = parsel.Selector(response.text)
#     # 提取标題
#     title = selector.xpath('//*[@class="bookname"]/h1/text()').get()
#     # 提取内容
#     content = '\n'.join(selector.xpath('//*[@id="content"]/text()').getall())
#     print(title)
#     # print(content)
#     # title <檔案名> '.txt' 檔案格式  a 追加儲存 encoding 編碼格式 as 重命名
#     with open(file + title + '.txt', mode='a', encoding='utf-8') as f:
#         """
#         第一章 标題
#             小說内容
#         第二章 标題
#             小說内容
#         """
#         # 寫入内容
#         f.write(title)
#         f.write('\n')
#         f.write(content)
#         f.write('\n')

Python實戰之小說下載下傳神器（三）排行榜所有小說：最全熱門小說合集，總有一款适合你，好多好多好多超贊的小說...（源碼分享學習）前言正文總結
2）效果展示

三、采集排行榜所有小說

下面我們采集玄幻榜單所有小說具體看是怎麼操作的呢？🤔

主要是要擷取所有小說id——

1）主程式

環境安裝都是一樣的方式，看最上面安裝就可以，第三方庫這裡隻是多了parsel庫。

import requests
import re
import parsel
import os


def get_response(html_url):
    """
    發送請求函數
    :param html_url: 請求連結
    :return: response響應對象
    """
    # 模拟浏覽器 headers 請求頭
    headers = {
        # user-agent 使用者代理 表示浏覽器基本身份資訊
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)
    return response


def get_list_url(html_url):
    """
    擷取章節url/小說名
    :param html_url: 小說目錄頁
    :return:
    """
    # 調用發送請求函數
    html_data = get_response(html_url).text
    # 提取小說名字
    name = re.findall('<h1>(.*?)</h1>', html_data)[0]
    # 提取章節url
    url_list = re.findall('<dd> <a style="" href="(.*?)" target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow" >', html_data)
    return name, url_list


def get_content(html_url):
    """
    擷取小說内容/小說标題
    :param html_url: 小說章節url
    :return:
    """
    # 調用發送請求函數
    html_data = get_response(html_url).text
    # 提取标題
    title = re.findall('<h1>(.*?)</h1>', html_data)[0]
    # 提取内容
    content = re.findall('<div id="content">(.*?)<p>', html_data, re.S)[0].replace('<br/><br/>', '\n')
    return title, content


def save(name, title, content):
    """
    儲存資料函數
    :param name: 小說名
    :param title: 章節名
    :param content: 内容
    :return:
    """
    # 自動建立一個檔案夾
    file = f'{name}\\'
    if not os.path.exists(file):
        os.mkdir(file)
    with open(file + title + '.txt', mode='a', encoding='utf-8') as f:
        """
        第一章 标題
            小說内容
        第二章 标題
            小說内容
        """
        # 寫入内容
        f.write(title)
        f.write('\n')
        f.write(content)
        f.write('\n')
    print(title, '已經儲存')

def get_novel_id(html_url):
    """
    擷取小說ID
    :param html_url: 某分類的連結
    :return:
    """
    # 調用發送請求函數
    novel_data = get_response(html_url=html_url).text
    selector = parsel.Selector(novel_data)
    href = selector.css('.l .s2 a::attr(href)').getall()
    href = [i.replace('/', '') for i in href]
    return href


def main(home_url):
    href = get_novel_id(html_url=home_url)
    for novel_id in href:
        novel_url = f'https://www.biqudu.net/{novel_id}/'
        name, url_list = get_list_url(html_url=novel_url)
        print(name, url_list)
        for url in url_list:
            index_url = 'https://www.biqudu.net' + url
            title, content = get_content(html_url=index_url)
            save(name, title, content)
        break


if __name__ == '__main__':
    html_url = 'https://www.biqudu.net/biquge_1/'
    main(html_url)

Python實戰之小說下載下傳神器（三）排行榜所有小說：最全熱門小說合集，總有一款适合你，好多好多好多超贊的小說...（源碼分享學習）前言正文總結
2）效果展示

總結

好啦！今天的内容到這裡就結束了哈，想看的60多本小說全部爬下來了，大家可以自己慢慢看

很久了~下一期這個系列内容就完結了，希望大家好好學一下哦！

✨完整的素材源碼等：可以滴滴我吖！或者點選文末hao自取免費拿的哈~

🔨推薦往期文章——

項目1.0 小說下載下傳神器（GUI界面）系列内容

Python實戰之小說下載下傳神器（一）看小說怎麼能少了這款寶藏神器呢？全網小說書籍随便下，随便看，爆贊（你準備好了嗎？）

項目1.1 小說下載下傳神器（GUI界面）系列内容 Python實戰之小說下載下傳神器（二）整本小說下載下傳：看小說不用這個程式，我實在替你感到可惜*（小說愛好者必備）

項目1.6 【Python實戰】聽書就用它了：海量資源随便聽,内含幾w書源,絕對精品哦~

項目1.8 【Python實戰】海量表情包炫酷來襲，快來pick鬥圖新姿勢吧~(超好玩兒)

🎁文章彙總——

Python文章合集 | (入門到實戰、遊戲、Turtle、案例等)

（文章彙總還有更多你案例等你來學習啦~源碼找我即可免費！）

Python實戰之小說下載下傳神器（三）排行榜所有小說：最全熱門小說合集，總有一款适合你，好多好多好多超贊的小說...（源碼分享學習）前言正文總結

前言

所有文章完整的素材+源碼都在👇👇

正文

一、運作環境

二、多線程采集小說

1）主程式

Python實戰之小說下載下傳神器（三）排行榜所有小說：最全熱門小說合集，總有一款适合你，好多好多好多超贊的小說...（源碼分享學習）前言正文總結
2）效果展示

三、采集排行榜所有小說

1）主程式

Python實戰之小說下載下傳神器（三）排行榜所有小說：最全熱門小說合集，總有一款适合你，好多好多好多超贊的小說...（源碼分享學習）前言正文總結
2）效果展示

總結

✨完整的素材源碼等：可以滴滴我吖！或者點選文末hao自取免費拿的哈~

🔨推薦往期文章——

🔨推薦往期文章——

🎁文章彙總——

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

Python實戰之小說下載下傳神器（三）排行榜所有小說：最全熱門小說合集，總有一款适合你，好多好多好多超贊的小說...（源碼分享學習）前言正文總結

前言

所有文章完整的素材+源碼都在👇👇

正文

一、運作環境

二、多線程采集小說

1）主程式

Python實戰之小說下載下傳神器（三）排行榜所有小說：最全熱門小說合集，總有一款适合你，好多好多好多超贊的小說...（源碼分享學習）前言正文總結 2）效果展示

三、采集排行榜所有小說

1）主程式

Python實戰之小說下載下傳神器（三）排行榜所有小說：最全熱門小說合集，總有一款适合你，好多好多好多超贊的小說...（源碼分享學習）前言正文總結 2）效果展示

總結

✨完整的素材源碼等：可以滴滴我吖！或者點選文末hao自取免費拿的哈~

🔨推薦往期文章——

🔨推薦往期文章——

🎁文章彙總——

繼續閱讀

Python實戰之小說下載下傳神器（三）排行榜所有小說：最全熱門小說合集，總有一款适合你，好多好多好多超贊的小說...（源碼分享學習）前言正文總結
2）效果展示

Python實戰之小說下載下傳神器（三）排行榜所有小說：最全熱門小說合集，總有一款适合你，好多好多好多超贊的小說...（源碼分享學習）前言正文總結
2）效果展示