Scrapy項目的建立及啟動

2023-06-11 11:39:19

安裝scrapy庫

pip install scrapy

項目的建立

在cmd明指令下輸入

scrapy startproject 項目名

例如

scrapy startproject baidu

建立完成

Scrapy項目的建立及啟動

設定編譯環境

Scrapy項目的建立及啟動

建立模闆

Scrapy項目的建立及啟動

打開這個檔案

Scrapy項目的建立及啟動

檔案内容如下

# -*- coding: utf-8 -*-
import scrapy


class BaiduSpiderSpider(scrapy.Spider):
    name = 'baidu_spider'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']
	
	# 處理下載下傳器傳送過來的response
    def parse(self, response):
	# response.text str類型
	# response.body bytes類型
        pass

#name:spider名稱，在後面啟動spider爬蟲的時候需要使用
#allowed_domains:二次請求
#start_urls:需要讓scrapy開始爬取的url

更改setting

1.不遵守robots協定

Scrapy項目的建立及啟動

設定請求頭

添加headers并取消注釋

Scrapy項目的建立及啟動

如下圖

Scrapy項目的建立及啟動

運作scrapy項目

scrapy crawl spider名稱

我們運作剛才建立的baidu_spider

Scrapy項目的建立及啟動

加上 --nolog可以不列印日志檔案

Scrapy項目的建立及啟動

可以看出我們多了一個baidu.html的檔案

Scrapy項目的建立及啟動

Scrapy項目的建立及啟動

安裝scrapy庫

項目的建立

設定編譯環境

建立模闆

更改setting

設定請求頭

運作scrapy項目

可以看出我們多了一個baidu.html的檔案

繼續閱讀

Python爬蟲之Scrapy架構的使用（二）一：建立爬蟲二：settings配置檔案三：建立啟動檔案四：爬蟲檔案内容五：item檔案六：pipelines檔案七：使用scrapy中的ItemLoader提取資料

Python網絡爬蟲與資訊提取——網絡爬蟲Scrapy架構

scrapy安裝_scrapy架構介紹1.Scrapy五大基本構成2.使用scrapy架構爬取網頁資料

scrapy架構_入門Scrapy架構看這一篇文章就夠了

scrapy爬蟲架構中基于redis分布式，資料存儲mysql中

【Python爬蟲】 scrapy架構添加IP代理池反反爬

scrapy架構_scrapy架構流程

request設定請求頭_收藏 Scrapy架構各元件詳細設定

Scrapy架構的學習(2.scrapy入門，簡單爬取頁面，并使用管道(pipelines)儲存資料)

Scrapy(三):使用Selector提取資料(一)

python之爬蟲scrapy架構基本知識（六）

scrapy_redis分布式爬蟲

從scrapy中拿到usergent.py檔案，複制所有源代碼到middlewares中,然後進行修改

爬蟲基礎 Scrapy架構架構Scrapy架構架構Scrapy快速入門CrawlSpiderScrapy ShellRequest和Response對象

Scrapy--CrawlSpider全站爬取