天天看點

2023爬蟲學習筆記 -- 第一個Scrapy爬蟲架構

作者:之乎者也吧呀

一、安裝scrapy庫檔案

pip install scrapy           
2023爬蟲學習筆記 -- 第一個Scrapy爬蟲架構

二、建立項目

1、在Pycharm的終端裡面運作

scrapy startproject 項目名稱           
2023爬蟲學習筆記 -- 第一個Scrapy爬蟲架構

2、進入到建立的目錄,并執行下面代碼

cd kjpc
scrapy genspider 爬蟲名字 任意一個網址(後面可以修改)           
scrapy genspider pachong www.aiyou.com           

3、自動建立的檔案及目錄

2023爬蟲學習筆記 -- 第一個Scrapy爬蟲架構

4、參數解釋

name:就是爬蟲的唯一辨別,運作爬蟲就是運作這個檔案名字
allowed_domains:爬蟲允許爬取的域名範圍
start_urls:可以被scrapy發起get請求,可以填寫多個位址
response:響應對象           

5、修改相關配置settings.py,繞過某些限制

1、robots協定修改
ROBOTSTXT_OBEY = False
2、隻檢視日志的錯誤資訊
LOG_LEVEL = 'ERROR'
3、添加頭資訊
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"           

6、在pycharm的終端中運作項目

scrapy crawl pachong  列印日志資訊
scrapy crawl pachong --nolog  不列印日志資訊           

7、源碼

import scrapy
class PachongSpider(scrapy.Spider):
    name = "pachong"
    #allowed_domains = ["www.aiyou.com"]
    start_urls = ["https://www.baidu.com/","https://www.sina.com"]
    def parse(self, response):
        print("響應内容:",response)           

繼續閱讀