爬蟲系列：資料采集

2021-10-18 23:50:00

在上一期，主要講解了：連接配接網站與解析 HTML

上一期隻是一個簡單的例子，擷取了網站的一小部分内容，本期開始講解需要擷取網站的所有文章清單。

在開始以前，還是要提醒大家：在網絡爬蟲的時候，你必須非常謹慎地考慮需要消耗多少網絡流量，還要盡力思考能不能讓采集目标的伺服器負載更低一點。

本次示例采集The ScrapingBee Blog部落格的文章。

在做資料采集以前，對網站經行分析，看看代碼結構。

需要采集的部分是一個個的小 card 組成，截圖如下：

擷取所有卡片的父标簽之後，循環單個卡片的内容：

單個卡片的内容，就是我們需要的内容，整理完思路之後，開始完成代碼：

首先我們還是複用上一期網站連接配接的代碼：

def __init__(self):

self._target_url = 'https://www.scrapingbee.com/blog/'
self._init_connection = connection_util.ProcessConnection()

以上代碼定義了一個被采集的網址，同時複用上一期的網站連接配接代碼。

# 連接配接目标網站，擷取内容
get_content = self._init_connection.init_connection(self._target_url)

連接配接到上面定義的目标網站，并擷取網站的内容。

if get_content:
    parent = get_content.findAll("section", {"class": "section-sm"})[0]
    get_row = parent.findAll("div", {"class": "col-lg-12 mb-5 mb-lg-0"})[0]

如果存在内容，對網站内容的标簽經行查找，以上是擷取所有 card 的父标簽，擷取具體網站結構可以自己檢視網站的完整内容。

get_child_item = get_row.findAll("div", {"class": "col-md-4 mb-4"})

擷取所有小卡片。

for item in get_child_item:
        # 擷取标題文字
        get_title = item.find("a", {"class": "h5 d-block mb-3 post-title"}).get_text()
        # 擷取釋出時間
        get_release_date = item.find("div", {"class": "mb-3 mt-2"}).findAll("span")[1].get_text()
        # 擷取文章描述
        get_description = item.find("p", {"class": "card-text post-description"}).get_text()

之後對擷取的小卡片經行周遊，擷取每個卡片的文章的标題，釋出時間，文章描述。

以上從網站結構開始分析，到具體代碼實作，這是爬蟲抽取網站内容的一個基本思路。

每個網站不同，結構也會有所不同，是以要針對性的編寫代碼。

以上代碼已托管在 Github，位址：

https://github.com/sycct/Scrape_1_1/

文章來源：爬蟲識别 - 爬蟲系列：資料采集

爬蟲系列：資料采集

繼續閱讀

Kafka：Topic概念與API介紹

5G小型蜂應用指南

PAT (Advanced Level) Practise 1012 The Best Rank (25)

mysql5.7的sql優化

線程通信和程序通信差別（線程程序差別）

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

微信小程式前端解密擷取使用者資訊

Spring MVC 自學雜記（五） -- SpringMVC與前台的json資料互動

《MySQL技術内幕：InnoDB存儲引擎》筆記

擴容TIKV節點遇到的坑

PHP輔導代做程式設計：CS353 Database System

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

詳解STM32單片機的堆棧