爬蟲scrapy架構的學習

2023-06-11 11:33:57

1. 安裝scrapy架構：

pip install scrapy 或者 conda install scrapy (我用的是anaconda環境）

2.什麼是scrapy:

Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用架構，我們隻需要實作少量的代碼，就能夠快速的抓取。

Scrapy 使用了 Twisted['twɪstɪd]異步網絡架構，可以加快我們的下載下傳速度。

3.scrapy的工作流程：

一般的爬蟲流程為：

爬蟲scrapy架構的學習

scrapy的爬蟲流程為：

爬蟲scrapy架構的學習

4.scrapy架構各部分簡介：

爬蟲scrapy架構的學習

5.開始scrapy入門：

1.建立一個scrapy項目（需要Terminal定位到指定的檔案處，mySpider為你需要建立的項目名字，即：scrapy startproject <項目名字>）

E:\PycharmProjects\Spider_Projects>scrapy startproject mySpider

生成的檔案結構為（指令：E:\PycharmProjects\Spider_Projects\myspider>tree）：

爬蟲scrapy架構的學習

2.生成一個爬蟲 (koolearn為要生成的koolearn.py檔案，koolearn.cn要爬取的範圍）

E:\PycharmProjects\Spider_Projects>scrapy genspider koolearn "koolearn.cn”

3.提取資料

在生成的xxxx.py中完善spider,使用xpath等方法

class ItcastSpider(scrapy.Spider): # 自定義spider類，繼承自scrapy.spider
    name = 'itcast'  # 爬蟲名字<爬蟲啟動時使用：scrapy crawl itcast>
    allowed_domains = ['koolearn.cn.cn']  # 允許爬取的範圍,防止爬蟲爬取到别的網站
    start_urls = ['http://www.koolearn.cn.cn/XXXX/XXXXX']  # 最開始請求的url位址

    def parse(self, response):# 資料提取方法，接收下載下傳中間件傳過來的response
        # 分組
        li_list = response.xpath("//div[@class='tea_con']//li")
        for li in li_list:
            item = {}
            item["name"] = li.xpath(".//h3/text()").extract_first()
            item["title"] = li.xpath(".//h4/text()").extract_first()
            # print(item)
            # Request, BaseItem, dict or None
            yield item

從選擇器中提取字元串：

extract(): 傳回一個包含有字元串資料的清單

extract_first(): 傳回清單中的第一個字元串

注意：

1. spider方法中的parse方法名不能修改

2.需要爬取的url位址必須要屬于allow_domain下的連接配接

3.response.xpath()傳回的是一個含有selector對象的清單

4.儲存資料

在pipeline中儲存資料，需要在setting中設定開啟

爬蟲scrapy架構的學習

OK，暫時先這些吧（我是有底線的————————————）。

爬蟲scrapy架構的學習

繼續閱讀

v2ex的簡單爬蟲

Python漫畫爬蟲開源 66漫畫 AJAX，包含資料庫連接配接，圖檔下載下傳處理

requests子產品進行人人網模拟登陸

Python image.show() 出錯FSPathMakeRef(/Applications/Preview.app) failed with error -43

2023爬蟲學習筆記 -- 多線程操作

M團店鋪評價采集不到問題問題展示：解決方案：

Python爬蟲學習（1）

Python爬蟲學習進階

Python爬蟲（入門+進階）學習筆記 1-2 初識Python爬蟲

Python進階爬蟲——Class1：認識爬蟲

python爬蟲學習筆記-1

python學習之urllib使用小結

NOIp模拟題之肮髒的牧師（桶排序）

一篇文章教你如何在一個月内學會爬取大規模資料

Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗

sort()函數到底是怎樣進行數字排序的