天天看點

27分鐘,路透社用人工智能搶到了一條全球新聞

“網絡的出現以及随之而來的資訊爆炸,讓記者準确迅速地報道新聞變得越來越具有挑戰性。”全球新聞機構路透社的研發團隊本周在arXiv上發表的一篇論文用了這樣一句開場白。

對路透社而言,假新聞的出現讓問題變得更加嚴重,這些假新聞扭曲了事件認知。

不過,像美聯社等新聞機構已經開始采用自動化的新聞寫作服務。這些報道使用了标準化的模式,例如财經新聞或者特定體育比賽結果,将資料填到預先寫好的模闆之中:“X在第三季度的财報顯示盈利為Y百萬,這一數值超出了華爾街的預期……”

是以其他新聞機構在自動化新聞制作方面都面臨着很大的壓力。今天,路透社介紹了該社是如何幾乎完全自動化地識别突發新聞報道的。劉曉莫(Xiaomo Liu,音譯)以及路透社研發部門和阿裡巴巴的同僚表示,新系統表現良好。事實上,它有可能能夠徹底革新新聞業務。但是它也引發了人們的擔憂——心懷叵測的人會如何利用這樣一個系統。

這個新系統被稱為路透社追蹤器(Reuters Tracer)。它将推特(Twitter)作為一種全球傳感器加以利用,新聞事件在發生的過程中,就會在推特上有相關記錄。然後該系統會使用各種資料挖掘和機器學習技術來挑選最為相關的事件,确定它們的主題,排列它們的優先級,并寫出标題和摘要。這個消息随後會被分發到該公司的全球新聞專線上。

整個流程的第一步是提取推特的資料流。該追蹤器每天要檢視大約1200萬條推特消息,占所有推特消息總數的2%。其中一半是随機抽樣,另外一半來自路透社記者建立的推特賬戶清單。其中包含其他新聞機構的賬戶、重要的公司、有影響力的個人等等。

下一步是确定新聞事件發生的時間。追蹤器(Tracer)是根據這樣一個前提假設完成這項工作的:如果幾個人同時開始談論這件事,這個事件就已經發生了。是以它使用聚類算法來尋找這些對話。

當然,這些聚類中包括垃圾郵件、廣告、普通聊天等。其中隻有一部分是具有新聞價值的事件。

是以下一個階段是對事件進行分類和排序。追蹤器(Tracer)使用一些算法來完成這項工作。第一個算法确定談話的主題。然後将它與一個主題資料庫進行比較,這個主題資料庫中的内容是由路透團隊從31個官方新聞賬戶——例如@CNN、@BBCBreaking和@nytimes,以及@BreakingNews等新聞聚合器所釋出的推特消息中收集的。

在這個階段,該算法還會使用包含了城市和基于位置關鍵字的資料庫來确定事件發生的地點。

一旦一段談話或流言被認定為新聞,一個重要的考量就是确認其準确性。為了确定這一點,追蹤器(Tracer)通過識别對話中最早提及該話題的推特消息及其指向的站點來尋找來源。然後,它會查詢一個資料庫,其中列出了已知的假新聞的制作者,例如國家報告(National Report),或是洋蔥(The Onion)這類諷刺新聞網站。

最後,該系統會寫出标題和摘要,并在路透社整個組織内分發該消息。

在試驗過程中,路透社的團隊表示該系統表現良好。他們表示:“追蹤器(Tracer)能夠在新聞檢測和送出方面實作很有競争力的準确度、召回率、時效性和準确度。”

他們有統計資料可以支援這一觀點。該系統每天處理1200萬條推特消息,将其中的大約百分之八十的内容作為噪聲加以拒絕。其餘的内容則被劃分進入6000個聚類,系統用這種方式将新聞事件劃分為不同的類型。所有的這一切工作全部由13台運作着10種不同算法的伺服器完成。

相比之下,路透社在全球雇傭了大約2500名新聞記者,他們每天使用各種來源——包括推特——總共産生大約3000條新聞提醒。其中,大約有250條被寫成了新聞報道。

路透社将追蹤器(Tracer)識别出的新聞同BBC和CNN等新聞機構的推送新聞進行了比較。劉和他的同僚表示,“結果表明,追蹤器(Tracer)可以用2%的推特資料覆寫大約70%的新聞報道。”

而這套系統的工作當然是非常迅速的。該團隊舉了2017年10月份在拉斯維加斯發生的槍擊案作為例證,在那次事件中,有58人喪生。一位目擊者在淩晨1點22分報告了這一事件,随即觸發了一個追蹤器(Tracer)聚類。但是,該聚類到淩晨1點39分之前都沒有達到該系統确認新聞的标準。劉和他的同僚表示:“路透社在淩晨1點49分報道了這一事件。”

這是一個有趣的工作,引發了很多問題,特别是圍繞着該系統是多麼容易被操縱這個問題。不難想象會有心懷叵測的人設計推特消息,以欺騙追蹤器(Tracer),實作特定目的。

但是這套系統是否會比現有的系統更好糊弄,恐怕還很難說,人類也經常會被各種假消息欺騙。

還有人類在新聞業中扮演的角色。新聞的未來顯然會變得日益自動化。人類如何适應這種變化還未見端倪。

原文出處:科技行者

轉載請與作者聯系,同時請務必标明文章原始出處和原文連結及本聲明。