2023爬蟲學習筆記 -- 第一個Scrapy爬蟲架構

作者：之乎者也吧呀 2023-03-27 20:31:00

一、安裝scrapy庫檔案

pip install scrapy

二、建立項目

1、在Pycharm的終端裡面運作

scrapy startproject 項目名稱

2、進入到建立的目錄，并執行下面代碼

cd kjpc
scrapy genspider 爬蟲名字 任意一個網址（後面可以修改）

scrapy genspider pachong www.aiyou.com

3、自動建立的檔案及目錄

4、參數解釋

name：就是爬蟲的唯一辨別，運作爬蟲就是運作這個檔案名字
allowed_domains：爬蟲允許爬取的域名範圍
start_urls：可以被scrapy發起get請求，可以填寫多個位址
response：響應對象

5、修改相關配置settings.py，繞過某些限制

1、robots協定修改
ROBOTSTXT_OBEY = False
2、隻檢視日志的錯誤資訊
LOG_LEVEL = 'ERROR'
3、添加頭資訊
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"

6、在pycharm的終端中運作項目

scrapy crawl pachong  列印日志資訊
scrapy crawl pachong --nolog  不列印日志資訊

7、源碼

import scrapy
class PachongSpider(scrapy.Spider):
    name = "pachong"
    #allowed_domains = ["www.aiyou.com"]
    start_urls = ["https://www.baidu.com/","https://www.sina.com"]
    def parse(self, response):
        print("響應内容：",response)

2023爬蟲學習筆記 -- 第一個Scrapy爬蟲架構

繼續閱讀

SVM學習筆記（一）

閱讀筆記--java程式設計思想第四版 --接口嵌套

法理學學習筆記Day4——法律規則重點知識點法的微觀結構★★★★★（考察40次）（二級考點）法律規則（二級考點）1.法律

最大子段和問題（分治法和動态規劃）

#人教五上預習#知識點總結#學習打卡ing#學習筆記#假期學習

持續更新調研報告寫作資料，希望各位多多批評指正#寫材料#學習資料分享#學習筆記#每天學習一點點

android學習筆記3：存儲資料存儲 Key-Value 集資料儲存到檔案

安卓學習筆記（九）網絡程式設計網絡程式設計

安卓學習筆記（一） Activity篇

django短信驗證碼的後端實作

天池龍珠計劃Python訓練營-task2筆記清單元組字元串字典集合序列

2022秋招cpp相關面試總結（長期更新）1、記憶體對齊2、類的占用空間死鎖elf優化bin檔案c語言和c++中const差別sizeof原理malloc一塊記憶體free怎麼找到頭尾

2022秋招面試總結（cpp+java+測開）百度測開一面位元組後端一面蝦皮後端一面蝦皮後端二面

nagios服務端搭建

Apache 虛拟主機搭建過程

判斷浏覽器類型與版本以及ios安卓判别