一、安裝scrapy庫檔案
pip install scrapy
二、建立項目
1、在Pycharm的終端裡面運作
scrapy startproject 項目名稱
2、進入到建立的目錄,并執行下面代碼
cd kjpc
scrapy genspider 爬蟲名字 任意一個網址(後面可以修改)
scrapy genspider pachong www.aiyou.com
3、自動建立的檔案及目錄
4、參數解釋
name:就是爬蟲的唯一辨別,運作爬蟲就是運作這個檔案名字
allowed_domains:爬蟲允許爬取的域名範圍
start_urls:可以被scrapy發起get請求,可以填寫多個位址
response:響應對象
5、修改相關配置settings.py,繞過某些限制
1、robots協定修改
ROBOTSTXT_OBEY = False
2、隻檢視日志的錯誤資訊
LOG_LEVEL = 'ERROR'
3、添加頭資訊
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"
6、在pycharm的終端中運作項目
scrapy crawl pachong 列印日志資訊
scrapy crawl pachong --nolog 不列印日志資訊
7、源碼
import scrapy
class PachongSpider(scrapy.Spider):
name = "pachong"
#allowed_domains = ["www.aiyou.com"]
start_urls = ["https://www.baidu.com/","https://www.sina.com"]
def parse(self, response):
print("響應内容:",response)