Python爬蟲入門教程 36-100 酷安網全站應用爬蟲 scrapy

爬前叨叨

2018年就要結束了，還有4天，就要開始寫2019年的教程了，沒啥感動的，一年就這麼過去了，今天要爬取一個網站叫做酷安，是一個應用商店，大家可以嘗試從手機APP爬取，不過爬取APP的部落格，我打算在50篇部落格之後在寫，是以現在就放一放啦~~~

酷安網站打開首頁之後是一個廣告頁面，點選頭部的應用即可

頁面分析

分頁位址找到，這樣就可以建構全部頁面資訊

我們想要儲存的資料找到，用來後續的資料分析

上述資訊都是我們需要的資訊，接下來，隻需要爬取即可，本篇文章使用的還是

scrapy

，所有的代碼都會在文章中出現，閱讀全文之後，你就擁有完整的代碼啦

import scrapy

from apps.items import AppsItem  # 導入item類
import re  # 導入正規表達式類

class AppsSpider(scrapy.Spider):
    name = 'Apps'
    allowed_domains = ['www.coolapk.com']
    start_urls = ['https://www.coolapk.com/apk?p=1']
    custom_settings = {
        "DEFAULT_REQUEST_HEADERS" :{
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Language': 'en',
            'User-Agent':'Mozilla/5.0 你的UA'

        }
    }

代碼講解

custom_settings 第一次出現，目的是為了修改預設 setting.py 檔案中的配置

def parse(self, response):
        list_items = response.css(".app_left_list>a")
        for item in list_items:
            url = item.css("::attr('href')").extract_first()

            url = response.urljoin(url)

            yield scrapy.Request(url,callback=self.parse_url)

        next_page = response.css('.pagination li:nth-child(8) a::attr(href)').extract_first()
        url = response.urljoin(next_page)
        yield scrapy.Request(url, callback=self.parse)

response.css 可以解析網頁，具體的文法，你可以參照上述代碼，重點閱讀 ::attr('href') 和 ::text

response.urljoin 用來合并URL

next_page 表示翻頁

parse_url函數

用來解析内頁，本函數内容又出現了3個輔助函數，分别是` self.getinfo(response)

self.gettags(response)

，

self.getappinfo(response)

 還有

response.css().re `支援正規表達式比對，可以比對文字内部内容

def parse_url(self,response):
        item = AppsItem()

        item["title"] = response.css(".detail_app_title::text").extract_first()
        info = self.getinfo(response)

        item['volume'] = info[0]
        item['downloads'] = info[1]
        item['follow'] = info[2]
        item['comment'] = info[3]

        item["tags"] = self.gettags(response)
        item['rank_num'] = response.css('.rank_num::text').extract_first()
        item['rank_num_users'] = response.css('.apk_rank_p1::text').re("共(.*?)個評分")[0]
        item["update_time"],item["rom"],item["developer"] = self.getappinfo(response)

        yield item

三個輔助方法如下

def getinfo(self,response):

        info = response.css(".apk_topba_message::text").re("\s+(.*?)\s+/\s+(.*?)下載下傳\s+/\s+(.*?)人關注\s+/\s+(.*?)個評論.*?")
        return info

    def gettags(self,response):
        tags = response.css(".apk_left_span2")
        tags = [item.css('::text').extract_first() for item in tags]

        return tags

    def getappinfo(self,response):
        #app_info = response.css(".apk_left_title_info::text").re("[\s\S]+更新時間：(.*?)")
        body_text = response.body_as_unicode()

        update = re.findall(r"更新時間：(.*)?[<]",body_text)[0]
        rom =  re.findall(r"支援ROM：(.*)?[<]",body_text)[0]
        developer = re.findall(r"開發者名稱：(.*)?[<]", body_text)[0]
        return update,rom,developer

儲存資料

資料傳輸的item在這個地方就不提供給你了，需要從我的代碼中去推斷一下即可，哈哈

import pymongo

class AppsPipeline(object):

    def __init__(self,mongo_url,mongo_db):
        self.mongo_url = mongo_url
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls,crawler):
        return cls(
            mongo_url=crawler.settings.get("MONGO_URL"),
            mongo_db=crawler.settings.get("MONGO_DB")
        )

    def open_spider(self,spider):
        try:
            self.client = pymongo.MongoClient(self.mongo_url)
            self.db = self.client[self.mongo_db]
            
        except Exception as e:
            print(e)

    def process_item(self, item, spider):
        name = item.__class__.__name__

        self.db[name].insert(dict(item))
        return item

    def close_spider(self,spider):
        self.client.close()

代碼解讀

open_spider 開啟爬蟲時，打開Mongodb

process_item 存儲每一條資料

close_spider 關閉爬蟲

重點檢視本方法 from_crawler 是一個類方法，在初始化的時候，從setting.py中讀取配置

SPIDER_MODULES = ['apps.spiders']
NEWSPIDER_MODULE = 'apps.spiders'
MONGO_URL = '127.0.0.1'
MONGO_DB = 'KuAn'

得到資料

調整一下爬取速度和并發數

DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
CONCURRENT_REQUESTS_PER_DOMAIN = 8

代碼走起，經過一系列的努力，得到資料啦！！！

抽空寫個酷安的資料分析，有需要源碼的，自己從頭到尾的跟着寫一遍就O98K了

Python爬蟲入門教程 36-100 酷安網全站應用爬蟲 scrapy

爬前叨叨

頁面分析

代碼講解

儲存資料

代碼解讀

得到資料

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入