天天看點

下載下傳及使用Scrapy進行爬蟲

Windows環境下

安裝wheel:pip install wheel

安裝scrapy: pip install scrapy

安裝成功測試

下載下傳及使用Scrapy進行爬蟲

做個Demo

首先建立項目包

下載下傳及使用Scrapy進行爬蟲

cd SZPT 切換到此目錄

建立srcapy工程:指令行輸入指令

scrapy startproject szpt

在目前目錄下建立如圖所示的工程檔案。

2.

切換到目前工程目錄,

cd szpt

并輸入指令: scrapy genspider szptcrawler www.szpt.edu.cn

下載下傳及使用Scrapy進行爬蟲

3.

打開spiders目錄下的szptcrawler.py檔案,修改加入如下代碼:

def parse(self, response):
        fname = 'szpt.html'
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('saved file %s' % fname);
           

4

指令行視窗輸入指令:scrapy crawl szptcrawler。

可以看到目前工作目錄下由scrapy下載下傳的學校首頁網頁檔案。

我的目錄

下載下傳及使用Scrapy進行爬蟲

最後可以看到 szpt.html 已經生成了!!!

注意事項

第二點如果沒有切換到正确的目錄 szptcrawler會生成在根目錄下面