對于 web 開發者而言,目前各大新聞門戶網站,新浪新聞,百度新聞,騰訊新聞,澎湃新聞,頭條新聞并沒有提供穩定可用的 feed api。
對于 nlper,缺乏足夠的新聞語料資料集來供訓練。
對于新聞傳播/社會學/心理學等從業者,缺乏擷取新聞資料的簡單易用途徑來供分析。
如果上面三點是某見識所限,其實并不存在的話,第 4 點,則是某的私心,某以為網際網路的記憶太短了,熱搜一浪蓋過一浪,是以試圖定格網際網路新聞的某些瞬間,最後會以網站的形式釋出出來。
project 的 Github:https://github.com/Python3Spiders/AllNewsSpider
本篇是 新聞系列 的第四篇,以美國著名的報紙:紐約時報網站為目标站點。

這次的新聞爬蟲和以往有很大不同,不再以分類形式抓取新聞,而是以關鍵詞搜尋抓取新聞,具體可以往下讀。
該爬蟲實作的主要功能羅列如下:
按自定義關鍵詞搜尋紐約時報上的新聞内容,抓取儲存到本地
可以自定義抓取的起止時間
字段資訊較為齊全,如下表格
字段名
字段含義
title
新聞标題
summary
新聞概括
url
新聞連結
publish_time
新聞發表時間
content
新聞具體内容
再說說如何使用(預設讀者均有 python3.6+ 環境)
将倉庫 nytimes 檔案夾下的 nytimes_news_spider.pyd 檔案下載下傳到本地,建立項目,把 pyd 檔案放進去
項目根目錄下建立 runner.py,寫入以下代碼即可運作并抓取
爬取結束了,會在目前目錄下生成一個 {keyword}(nytimes).csv檔案,如下圖
閱讀原文即可直達該爬蟲的 Github 位址。