天天看點

Scrapy項目的建立及啟動

安裝scrapy庫

pip install scrapy
           

項目的建立

在cmd明指令下輸入

scrapy startproject 項目名

例如

scrapy startproject baidu
           

建立完成

Scrapy項目的建立及啟動
Scrapy項目的建立及啟動

設定編譯環境

Scrapy項目的建立及啟動

建立模闆

Scrapy項目的建立及啟動

打開這個檔案

Scrapy項目的建立及啟動

檔案内容如下

# -*- coding: utf-8 -*-
import scrapy


class BaiduSpiderSpider(scrapy.Spider):
    name = 'baidu_spider'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']
	
	# 處理下載下傳器傳送過來的response
    def parse(self, response):
	# response.text str類型
	# response.body bytes類型
        pass
           
#name:spider名稱,在後面啟動spider爬蟲的時候需要使用
#allowed_domains:二次請求
#start_urls:需要讓scrapy開始爬取的url
           

更改setting

1.不遵守robots協定

Scrapy項目的建立及啟動

設定請求頭

添加headers并取消注釋

Scrapy項目的建立及啟動

如下圖

Scrapy項目的建立及啟動

運作scrapy項目

scrapy crawl spider名稱
           

我們運作剛才建立的baidu_spider

Scrapy項目的建立及啟動
Scrapy項目的建立及啟動

加上 --nolog可以不列印日志檔案

Scrapy項目的建立及啟動
可以看出我們多了一個baidu.html的檔案
Scrapy項目的建立及啟動

繼續閱讀