天天看點

新聞平台聚合之紐約時報爬蟲釋出

對于 web 開發者而言,目前各大新聞門戶網站,新浪新聞,百度新聞,騰訊新聞,澎湃新聞,頭條新聞并沒有提供穩定可用的 feed api。

對于 nlper,缺乏足夠的新聞語料資料集來供訓練。

對于新聞傳播/社會學/心理學等從業者,缺乏擷取新聞資料的簡單易用途徑來供分析。

如果上面三點是某見識所限,其實并不存在的話,第 4 點,則是某的私心,某以為網際網路的記憶太短了,熱搜一浪蓋過一浪,是以試圖定格網際網路新聞的某些瞬間,最後會以網站的形式釋出出來。

project 的 Github:https://github.com/Python3Spiders/AllNewsSpider

本篇是 新聞系列 的第四篇,以美國著名的報紙:紐約時報網站為目标站點。

新聞平台聚合之紐約時報爬蟲釋出

這次的新聞爬蟲和以往有很大不同,不再以分類形式抓取新聞,而是以關鍵詞搜尋抓取新聞,具體可以往下讀。

該爬蟲實作的主要功能羅列如下:

按自定義關鍵詞搜尋紐約時報上的新聞内容,抓取儲存到本地

可以自定義抓取的起止時間

字段資訊較為齊全,如下表格

字段名

字段含義

title

新聞标題

summary

新聞概括

url

新聞連結

publish_time

新聞發表時間

content

新聞具體内容

再說說如何使用(預設讀者均有 python3.6+ 環境)

将倉庫 nytimes 檔案夾下的 nytimes_news_spider.pyd 檔案下載下傳到本地,建立項目,把 pyd 檔案放進去

項目根目錄下建立 runner.py,寫入以下代碼即可運作并抓取

爬取結束了,會在目前目錄下生成一個 {keyword}(nytimes).csv檔案,如下圖

新聞平台聚合之紐約時報爬蟲釋出

閱讀原文即可直達該爬蟲的 Github 位址。