天天看點

scrapy爬蟲建立項目

1.進入scrapy的項目所在的目錄建立項目scrapy startproject cmfg_registerMoney_crawel;

2.進入建立項目的目錄: cd cmfg_registerMoney_crawel

3.建立spider: scrapy genspider xinBaidu   網址

scrapy爬蟲建立項目

4.打開項目,目錄的結構如圖:

scrapy爬蟲建立項目

5. 解析scrapy架構結構:

  • scrapy.cfg

    : 項目的配置檔案。
  • cmfg_registerMoney_crawel

    /

    : 該項目的python子產品。之後您将在此加入代碼。
  • cmfg_registerMoney_crawel

    /items.py

    : 項目中的item檔案,儲存的字段屬性。
  • cmfg_registerMoney_crawel

    /pipelines.py

    : 項目中的pipelines檔案。
  • cmfg_registerMoney_crawel

    /settings.py

    : 項目的設定檔案。
  • cmfg_registerMoney_crawel

    /spiders/

    : 放置spider代碼的目錄。

6. scrapy的架構的原理 :

1.從spider開始,如果spider沒有start_requests方法時,則從start_url這個url爬起;如果有start_requests方法時,則忽略start_url。2. 接着将start_requests中的url和參數等一些資訊傳到Middleware進行處理;3. 然後将響應的頁面傳到Spider中的parse中進行解析,提取重要資料,存儲到item中定義的字段中; 4. 然後傳回yield item到pipeline中進行處理,如去重,存儲到mongodb中。

繼續閱讀