新聞平台聚合之紐約時報爬蟲釋出

2021-07-13 15:07:53

對于 web 開發者而言，目前各大新聞門戶網站，新浪新聞，百度新聞，騰訊新聞，澎湃新聞，頭條新聞并沒有提供穩定可用的 feed api。

對于 nlper，缺乏足夠的新聞語料資料集來供訓練。

對于新聞傳播/社會學/心理學等從業者，缺乏擷取新聞資料的簡單易用途徑來供分析。

如果上面三點是某見識所限，其實并不存在的話，第 4 點，則是某的私心，某以為網際網路的記憶太短了，熱搜一浪蓋過一浪，是以試圖定格網際網路新聞的某些瞬間，最後會以網站的形式釋出出來。

project 的 Github：https://github.com/Python3Spiders/AllNewsSpider

本篇是新聞系列的第四篇，以美國著名的報紙：紐約時報網站為目标站點。

這次的新聞爬蟲和以往有很大不同，不再以分類形式抓取新聞，而是以關鍵詞搜尋抓取新聞，具體可以往下讀。

該爬蟲實作的主要功能羅列如下：

按自定義關鍵詞搜尋紐約時報上的新聞内容，抓取儲存到本地

可以自定義抓取的起止時間

字段資訊較為齊全，如下表格

字段名

字段含義

title

新聞标題

summary

新聞概括

url

新聞連結

publish_time

新聞發表時間

content

新聞具體内容

再說說如何使用（預設讀者均有 python3.6+ 環境）

将倉庫 nytimes 檔案夾下的 nytimes_news_spider.pyd 檔案下載下傳到本地，建立項目，把 pyd 檔案放進去

項目根目錄下建立 runner.py，寫入以下代碼即可運作并抓取

爬取結束了，會在目前目錄下生成一個 {keyword}(nytimes).csv檔案，如下圖

閱讀原文即可直達該爬蟲的 Github 位址。

繼續閱讀