下載下傳及使用Scrapy進行爬蟲

2023-08-05 23:21:25

Windows環境下

安裝wheel：pip install wheel

安裝scrapy: pip install scrapy

安裝成功測試

下載下傳及使用Scrapy進行爬蟲

做個Demo

首先建立項目包

下載下傳及使用Scrapy進行爬蟲

cd SZPT 切換到此目錄

建立srcapy工程：指令行輸入指令

scrapy startproject szpt

在目前目錄下建立如圖所示的工程檔案。

切換到目前工程目錄，

cd szpt

并輸入指令： scrapy genspider szptcrawler www.szpt.edu.cn

下載下傳及使用Scrapy進行爬蟲

打開spiders目錄下的szptcrawler.py檔案，修改加入如下代碼：

def parse(self, response):
        fname = 'szpt.html'
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('saved file %s' % fname);

指令行視窗輸入指令：scrapy crawl szptcrawler。

可以看到目前工作目錄下由scrapy下載下傳的學校首頁網頁檔案。

我的目錄

下載下傳及使用Scrapy進行爬蟲

最後可以看到 szpt.html 已經生成了！！！

注意事項

第二點如果沒有切換到正确的目錄 szptcrawler會生成在根目錄下面

下載下傳及使用Scrapy進行爬蟲

Windows環境下

注意事項

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入