50行Python代碼爬取黑絲美眉純欲高清圖

要說最美好的欲望莫過于看黑絲美眉。

一、技術路線

requests：網頁請求

BeautifulSoup：解析html網頁

re：正規表達式，提取html網頁資訊

os：儲存檔案

import re
import requests
import os
from bs4 import BeautifulSoup
複制代碼

二、擷取網頁資訊

擷取網頁資訊的固定格式，傳回的字元串格式的網頁内容，其中headers參數可模拟人為的操作，‘欺騙’網站不被發現

def getHtml(url):  #固定格式，擷取html内容
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }  #模拟使用者操作
    try:
        r = requests.get(url, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print('網絡狀态錯誤')
複制代碼

三、網頁爬取分析

右鍵單擊圖檔區域，選擇審查元素 ,可以檢視目前網頁圖檔詳情連結，我就滿心歡喜的複制連結打開儲存，看看效果，結果一張圖檔隻有60幾kb，這就是縮略圖啊，不清晰，果斷舍棄。。。

沒有辦法，隻有點選找到詳情頁連結，再進行單獨爬取。

空白右鍵，檢視頁面源代碼，把剛剛複制的縮略圖連結複制查找快速定位，分析所有圖檔詳情頁連結存在div标簽，并且class=‘list’ 唯一，是以可以使用BeautifulSoup提取此标簽。并且發現圖檔詳情頁連結在herf=後面（同時我們注意到有部分無效連結也在div标簽中，觀察它們異同，發現無效連結存在'https'字樣，是以可在代碼中依據此排出無效連結，對應第4條中的函數代碼），隻需提取出來再在前面加上網頁首頁連結即可打開，并且右鍵圖檔，‘審查元素’，複制連結下載下傳的圖檔接近1M，表示是高清圖檔了，到這一步我們隻需調用下載下傳儲存函數即可儲存圖檔

四、網頁詳情頁連結擷取

首要目标是将每頁的每個圖檔的詳情頁連結給爬取下來，為後續的高清圖檔爬取做準備，這裡直接使用定義函數def getUrlList(url)

def getUrlList(url):  # 擷取圖檔連結
    url_list = []  #存儲每張圖檔的url，用于後續内容爬取
    demo = getHtml(url)
    soup = BeautifulSoup(demo,'html.parser')
    sp = soup.find_all('div', class_="list") #class='list'在全文唯一，是以作為錨，擷取唯一的div标簽；注意，這裡的網頁源代碼是class，但是python為了和class（類）做區分，在最後面添加了_
    nls = re.findall(r'a href="(.*?)" rel="external nofollow"  rel="external nofollow" ', str(sp)) #用正規表達式提取連結
    for i in nls:
        if 'https' in i: #因所有無效連結中均含有'https'字元串，是以直接剔除無效連結（對應第3條的分析）
            continue
        url_list.append('http://www.netbian.com' + i) #在擷取的連結中添加字首，形成完整的有效連結
    return url_list
複制代碼

五、依據圖檔連結儲存圖檔

通過上面擷取了每個圖檔的詳情頁連結後，打開，右鍵圖檔審查元素，複制連結即可快速定位，然後儲存圖檔

def fillPic(url,page):
    pic_url = getUrlList(url) #調用函數，擷取目前頁的所有圖檔詳情頁連結
    path = './美女'  # 儲存路徑
    for p in range(len(pic_url)):
        pic = getHtml(pic_url[p])
        soup = BeautifulSoup(pic, 'html.parser')
        psoup = soup.find('div', class_="pic") #class_="pic"作為錨，擷取唯一div标簽；注意，這裡的網頁源代碼是class，但是python為了和class（類）做區分，在最後面添加了_
        picUrl = re.findall(r'src="(.*?)"', str(psoup))[0] #利用正規表達式擷取詳情圖檔連結，因為這裡傳回的是清單形式，是以取第一個元素（隻有一個元素，就不用周遊的方式了）
        pic = requests.get(picUrl).content #打開圖檔連結，并以二進制形式傳回（圖檔，聲音，視訊等要以二進制形式打開）
        image_name ='美女' + '第{}頁'.format(page) + str(p+1) + '.jpg' #給圖檔預定名字
        image_path = path + '/' + image_name #定義圖檔儲存的位址
        with open(image_path, 'wb') as f: #儲存圖檔
            f.write(pic)
            print(image_name, '下載下傳完畢！！！')
複制代碼

六、main()函數

經過前面的主體架構搭建完畢之後，對整個程式做一個前置化，直接上代碼

在這裡第1頁的連結是

www.netbian.com/meinv/

第2頁的連結是

www.netbian.com/meinv/index…

并且後續頁面是在第2頁的基礎上僅改變最後的數字，是以在寫代碼的時候要注意區分第1頁和後續頁面的連結，分别做處理；同時在main()函數還增加了自定義爬取頁數的功能，詳見代碼

def main():
    n = input('請輸入要爬取的頁數：')
    url = 'http://www.netbian.com/meinv/'  # 資源的首頁，可根據自己的需求檢視不同分類，自定義改變目錄，爬取相應資源
    if not os.path.exists('./美女'):  # 如果不存在，建立檔案目錄
        os.mkdir('./美女/')
    page = 1
    fillPic(url, page)  # 爬取第一頁，因為第1頁和後續頁的連結的差別，單獨處理第一頁的爬取
    if int(n) >= 2: #爬取第2頁之後的資源
        ls = list(range(2, 1 + int(n)))
        url = 'http://www.netbian.com/meinv/'
        for i in ls: #用周遊的方法對輸入的需求爬取的頁面做分别爬取處理
            page = str(i)
            url_page = 'http://www.netbian.com/meinv/'
            url_page += 'index_' + page + '.htm' #擷取第2頁後的每頁的詳情連結
            fillPic(url, page) #調用fillPic()函數
複制代碼

七、完整代碼

最後再調用main()，輸入需要爬取的頁數，即可開始爬取，完整代碼如下

import re
import requests
import os
from bs4 import BeautifulSoup

def getHtml(url):  #固定格式，擷取html内容
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }  #模拟使用者操作
    try:
        r = requests.get(url, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print('網絡狀态錯誤')

def getUrlList(url):  # 擷取圖檔連結
    url_list = []  #存儲每張圖檔的url，用于後續内容爬取
    demo = getHtml(url)
    soup = BeautifulSoup(demo,'html.parser')
    sp = soup.find_all('div', class_="list") #class='list'在全文唯一，是以作為錨，擷取唯一的div标簽；注意，這裡的網頁源代碼是class，但是python為了和class（類）做區分，在最後面添加了_
    nls = re.findall(r'a href="(.*?)" rel="external nofollow"  rel="external nofollow" ', str(sp)) #用正規表達式提取連結
    for i in nls:
        if 'https' in i: #因所有無效連結中均含有'https'字元串，是以直接剔除無效連結（對應第3條的分析）
            continue
        url_list.append('http://www.netbian.com' + i) #在擷取的連結中添加字首，形成完整的有效連結
    return url_list

def fillPic(url,page):
    pic_url = getUrlList(url) #調用函數，擷取目前頁的所有圖檔詳情頁連結
    path = './美女'  # 儲存路徑
    for p in range(len(pic_url)):
        pic = getHtml(pic_url[p])
        soup = BeautifulSoup(pic, 'html.parser')
        psoup = soup.find('div', class_="pic") #class_="pic"作為錨，擷取唯一div标簽；注意，這裡的網頁源代碼是class，但是python為了和class（類）做區分，在最後面添加了_
        picUrl = re.findall(r'src="(.*?)"', str(psoup))[0] #利用正規表達式擷取詳情圖檔連結，因為這裡傳回的是清單形式，是以取第一個元素（隻有一個元素，就不用周遊的方式了）
        pic = requests.get(picUrl).content #打開圖檔連結，并以二進制形式傳回（圖檔，聲音，視訊等要以二進制形式打開）
        image_name ='美女' + '第{}頁'.format(page) + str(p+1) + '.jpg' #給圖檔預定名字
        image_path = path + '/' + image_name #定義圖檔儲存的位址
        with open(image_path, 'wb') as f: #儲存圖檔
            f.write(pic)
            print(image_name, '下載下傳完畢！！！')

def main():
    n = input('請輸入要爬取的頁數：')
    url = 'http://www.netbian.com/meinv/'  # 資源的首頁，可根據自己的需求檢視不同分類，自定義改變目錄，爬取相應資源
    if not os.path.exists('./美女'):  # 如果不存在，建立檔案目錄
        os.mkdir('./美女/')
    page = 1
    fillPic(url, page)  # 爬取第一頁，因為第1頁和後續頁的連結的差別，單獨處理第一頁的爬取
    if int(n) >= 2: #爬取第2頁之後的資源
        ls = list(range(2, 1 + int(n)))
        url = 'http://www.netbian.com/meinv/'
        for i in ls: #用周遊的方法對輸入的需求爬取的頁面做分别爬取處理
            page = str(i)
            url_page = 'http://www.netbian.com/meinv/'
            url_page += 'index_' + page + '.htm' #擷取第2頁後的每頁的詳情連結
            fillPic(url_page, page) #調用fillPic()函數

main()
複制代碼

①兼職交流，行業咨詢、大佬線上專業解答

②Python開發環境安裝教程

③Python400集自學視訊

④軟體開發常用詞彙

⑤Python學習路線圖

⑥3000多本Python電子書

50行Python代碼爬取黑絲美眉純欲高清圖

繼續閱讀

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

403 Forbidden，You don't have permission to access / on this server.Forbidden

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

neo4j之cypher使用文檔

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入