安裝scrapy庫
pip install scrapy
項目的建立
在cmd明指令下輸入
scrapy startproject 項目名
例如
scrapy startproject baidu
建立完成
設定編譯環境
建立模闆
打開這個檔案
檔案内容如下
# -*- coding: utf-8 -*-
import scrapy
class BaiduSpiderSpider(scrapy.Spider):
name = 'baidu_spider'
allowed_domains = ['www.baidu.com']
start_urls = ['http://www.baidu.com/']
# 處理下載下傳器傳送過來的response
def parse(self, response):
# response.text str類型
# response.body bytes類型
pass
#name:spider名稱,在後面啟動spider爬蟲的時候需要使用
#allowed_domains:二次請求
#start_urls:需要讓scrapy開始爬取的url
更改setting
1.不遵守robots協定
設定請求頭
添加headers并取消注釋
如下圖
運作scrapy項目
scrapy crawl spider名稱
我們運作剛才建立的baidu_spider
加上 --nolog可以不列印日志檔案