天天看點

疫情之下,一套支援私有化部署的新聞采集系統需要具備什麼?

從2020年年初以來,疫情已經變成了生活中常見的名詞,疫情常态化之下,人們對于網絡的依賴性越來越大,網際網路産業飛速發展。

在這樣一個資訊爆炸和資訊碎片化時代,各個領域的資訊量和資訊規模都以驚人的速度增長,使用者的注意力被各種紛繁複雜的資訊侵擾,如果想要收集某一類資訊,需要經曆“網絡搜尋——逐條收集——彙總整合”等流程,需要耗費大量的時間和精力。

比如我們經常會收到客戶的需求,需要采集幾十家國内外主流新聞媒體平台的資料,包括國内新聞網站(如人民網、新華網、中新社、中國日報等)、國内主流社交媒體平台(如微網誌、頭條、小紅書、豆瓣、知乎等)、國外的新聞網站、國外主流社交媒體平台等,動辄涉及到成千上萬的賬号以及上億條資料,包括文字,圖檔,電子刊多種展現形式,如果能夠利用資料收集系統,快速從網際網路上擷取所需要的的資料,無疑能夠節省大量的時間和人力成本,提升專題研究深度與資訊情報完整度。

  1. 私有化部署的新聞采集系統是什麼?

很多企業和平台都會搭建内部的新聞采集系統,利用工具每天及時從網際網路上采集最新新聞資訊、政務公告、使用者回報等資料,資料表現形式包括但不限于文本、圖檔等,通過API接口将采集到的資料與企業資料中台系統、融媒體系統、業務系統等對接,進而更好地發展自身的平台和業務。

  1. 為什麼要建立私有化部署的新聞采集系統?

以傳媒行業和研究機構為例:

1.傳媒行業:需求:每天需要高品質高效地擷取的最新新聞資訊,整合各個管道的資訊,進而用于新聞報道和挖掘,特别是連續研究、跟蹤和深度報道,最後結合資料分析和社會輿論,形成深度的重大專題新聞和系列報道。

難點:②新聞資訊更新快,能否掌握一手資訊,能否第一時間報道是關鍵因素。②新聞輿論資料量大,有可能單一新聞都有千萬級的閱讀、十萬級的評論,如何擷取整合這類資訊,了解輿論動向,也是目前先進傳媒機關的重點布局領域。②資訊來源衆多,傳播鍊條複雜,形式多樣,人工挖掘能力有限。

疫情之下,一套支援私有化部署的新聞采集系統需要具備什麼?

基于以上難點,一套高實時性、高完整度、高相容性、并且支援内外部署的新聞采集系統就至關重要了。符合以上三個特性,才能有效幫助傳統新聞采編人員節省大量時間,實作自動化的資料收集能力,無需人工幹預,進而讓采編發人員有更多精力從事專業領域的事情。

2.研究機構:

需求:對于某些領域的專題研究,比如某個政策或某個事件的專題分析,需要有廣度的資訊整合與深度的研究,才能把事件串起來,結合時間、地理因素等研究事件中對象之間的關聯關系、事件的傳播路徑與社會影響等。

難點:1.新聞與社交等高品質資訊源擷取難度大2.資料次元廣,形式多樣,包括政策相關、企業相關、人物相關、輿論相關等多重次元。3.機構資料有一定的隐私性,對系統安全性的要求高。

由此看來,一套支援内網部署、機構人員無需技術基礎即可操作的采集系統就顯得至關重要了,通過簡單的配置即可完成海量的異構的資料擷取,幫助業務人員輕松掌握各類型資料,滿足專題研究各種場景需求。

  1. 私有化部署的新聞采集系統應該具備什麼?

1.支援内網部署一般需求私有化部署采集系統的客戶都有自身資料的保密性需求,是以資料的安全性和隐私性是重中之重。比如媒體公衆号平台的評論資料隻能在内網擷取,一套直接從内部搭建、部署到企業伺服器上的新聞采集系統,資料安全性更高,可與企業業務系統高度融合。

2.支援各種網站資料源采集(靈活配置)包括新聞網站、社交網站、機構政策網站、政府公告等多種資料來源。

3.采集資料完整性要求高資料采集過程有可能因為網絡原因而産生不穩定因素進而導緻資料品質漏采,或重複資料多等問題,是以除了采集系統外,還需要有完整的采集過程資料品質監控系統,用于對資料進行補采或對業務人員進行提醒等操作。

4.支援實時采集新聞資訊時效性強,需要各個目标網站的資料一更新就立即将其采集下來,這就需要通過資訊源的數量靈活排程節點資源來配置設定采集頻率。7*24小時穩定運作的雲端分布式采集,能夠實作短時間采集海量資料的目的,輕松實作日采百萬級甚至千萬級的資料;彌補企業/政府大資料采集與處理能力的技術短闆。

5.支援API與内部系統對接不管是企業的中台系統、融媒體系統、業務工作流系統,還是建立在知識圖譜之上的智能預警的預測系統,通過靈活的API與原生系統實作資料對接,能夠快速實作資料導入等功能。

6.支援資料清洗網際網路采集資料均是非結構化資料,多為文本資料,如果能在采集端即做好資料清洗,将會大大減輕後端業務邏輯系統的負擔。

7.支援高負載的資料吞吐這類型客戶采集量大,我們有某客戶,每天要監控采集2W多個網站資料,新聞資訊資料時效性強,通常是即采即用的,除了将資料采集下來,還需要将資料吞吐出去,是以整個資料的流轉需要做得高效,這就要求提供高負載高吞吐的API接口,以實作采集結果秒級同步到企業的資料庫或内部系統中。

8.支援多帳号操作企業内部多使用者可以同時使用并作業系統,并根據操作權限不同實作分級管理,層級清晰,職責明确。

八爪魚深耕新聞采集領域多年,緻力于為客戶提供全方位、不間斷的服務,幫助過數百位客戶搭建了私有化部署的新聞采集系統,在新聞采集領域擁有豐富的經驗。