5、web爬蟲，scrapy子產品,解決重複ur——自動遞歸url

2019-06-10 23:50:00

【百度雲搜尋:http://www.lqkweb.com 】搜網盤:http://www.swpan.cn

一般抓取過的url不重複抓取，那麼就需要記錄url，判斷目前URL如果在記錄裡說明已經抓取過了，如果不存在說明沒抓取過

記錄url可以是緩存，或者資料庫，如果儲存資料庫按照以下方式：

id　　 URL加密(建索引以便查詢) 　　原始URL

儲存URL表裡應該至少有以上3個字段

1、URL加密(建索引以便查詢)字段：用來查詢這樣速度快，

2、原始URL，用來給加密url做對比，防止加密不同的URL出現同樣的加密值

自動遞歸url

# -*- coding: utf-8 -*-
import scrapy       #導入爬蟲子產品
from scrapy.selector import HtmlXPathSelector  #導入HtmlXPathSelector子產品
from scrapy.selector import Selector

class AdcSpider(scrapy.Spider):
    name = 'adc'                                        #設定爬蟲名稱
    allowed_domains = ['hao.360.cn']
    start_urls = ['https://hao.360.cn/']

    def parse(self, response):

        #這裡做頁面的各種擷取以及處理

        #遞歸查找url循環執行
        hq_url = Selector(response=response).xpath('//a/@href')   #查找到目前頁面的所有a标簽的href，也就是url
        for url in hq_url:                                        #循環url
            yield scrapy.Request(url=url, callback=self.parse)    #每次循環将url傳入Request方法進行繼續抓取，callback執行parse回調函數，遞歸循環

        #這樣就會遞歸抓取url并且自動執行了，但是需要在settings.py 配置檔案中設定遞歸深度，DEPTH_LIMIT=3表示遞歸3層

這樣就會遞歸抓取url并且自動執行了，但是需要在settings.py 配置檔案中設定遞歸深度，DEPTH_LIMIT=3表示遞歸3層

【轉載自：

http://www.leiqiankun.com/?id=48

5、web爬蟲，scrapy子產品,解決重複ur——自動遞歸url

繼續閱讀

4、web爬蟲，scrapy子產品标簽選擇器下載下傳圖檔，以及正則比對标簽

8、web爬蟲講解2—urllib庫爬蟲—ip代理—使用者代理和ip代理結合應用

12、web爬蟲講解2—Scrapy架構爬蟲—Scrapy模拟浏覽器登入—擷取Scrapy架構Cookies

10、web爬蟲講解2—Scrapy架構爬蟲—Scrapy安裝—Scrapy指令

11、web爬蟲講解2—Scrapy架構爬蟲—Scrapy使用

14、web爬蟲講解2—Scrapy架構爬蟲—豆瓣登入與利用打碼接口實作自動識别驗證碼

13、web爬蟲講解2—Scrapy架構爬蟲—Scrapy爬取百度新聞，爬取Ajax動态生成的資訊

SIGCOMM2019阿裡巴巴首次發表兩篇主會論文

推薦一個網頁抓取小工具Web Scraper

利用openfaas faasd在你的雲主機上部署function serverless面闆

PolarDB-X 1.0-API參考-1.0（2019版本）-執行個體版本-UpgradeInstanceVersion

ER 來自百度的富浏覽器端web應用架構

SAP UI5 OData庫的_getServiceSchemaVersion

SAP 電商雲 Spartacus UI 和路由相關的 State 處理

使用 yo 指令行向導給 SAP UI5 應用添加一個新的視圖

QT應用程式設計: 解決QGraphicsScene重寫滑鼠事件無法直接得到滑鼠坐标問題