天天看點

AI=愛,阿裡達摩院的“謠言粉碎機”拯救了爸媽朋友圈

小編有話說:從那句熟悉的“狼來了”開始,謠言開始在我們生活無孔不入,一些不壞好意的人,把謊言變成一張漂亮的包裝紙,裹挾着詐騙、虛榮、不懷好意,肆意橫行。總有人想改變這一切。阿裡達摩院的科學家們最近在用AI識别謠言的研究上,有了一些小突破。

AI=愛,阿裡達摩院的“謠言粉碎機”拯救了爸媽朋友圈

當全民瘋搶闆藍根食鹽白醋,終日人心惶惶;

當“養生秘聞”“200%理财回報”充斥在朋友圈,無數養老錢血本無歸;

當“寒門狀元之死”透支人們對世界的信任;

......

人們被迫練就了一身硬邦邦的铠甲,一邊斜眉冷視周圍的世界,一邊草木皆兵地生存。甯可信其有,不可信其無。然而,總有人想改變這一切。達摩院的科學家們最近在用AI識别謠言的研究上,有了一些小突破。

在了解到這個資訊後,我第一時間采訪到了達摩院NLP團隊的核心成員之一——李泉志,他大學畢業于清華大學,後在美國獲得自然語言了解方向的博士學位,目前在達摩院的西雅圖辦公室工作。

在加入達摩院前,他曾是世界級通訊社——路透社重要的“情報官”:通過機器篩選成千上萬的網絡資訊,為數千位一線記者提供可靠線索。借着這個難得的機會,我“假公濟私”,請泉志使用算法鑒定一條關于發來“速轉!科學家發現:一味中藥48小時可殺死60%癌細胞!”的新聞真假,還原“打假”現場。

在泉志的詳細說明下,一個令人驚歎的“打假”模型逐漸露出。事實上,這個運算邏輯遠比我之前想得要複雜,甚至顯得有點“老謀深算”。

泉志告訴我,判斷一個新聞真假,要分三個步驟。首先,在盤根錯節的資訊裡,機器會找到最初的信源,分析其使用者畫像(專業領域,個人或機構,機構類型,影響力,過去發表的内容類型,是否可信,地域,注冊時間,活躍規律等),進而判斷此釋出者的信譽度。

如果這條新聞帶有連結,我們可以再看看連結的域名,是否來自可信網站,比如新華社、政府醫藥管理局。

接下來,我們拿起聽診器,細細揣摩正文的“心跳聲”:

“一味中藥48小時可殺死60%癌細胞!”打開正文,我們看看究竟這味中藥的成分是哪些?具體對哪些癌細胞起作用?機器會把這些關鍵的論證提煉為知識點,與知識圖譜裡的權威知識庫做比對驗證。如果毫無聯系、自相沖突,減分。

泉志表示,除了内容不實、上下文邏輯不連貫外,機器還能從行文風格裡找到蛛絲馬迹。比如:

“多一次轉發就多一次活命機會”

“傳瘋了!晚上一定要關wifi,太吓人了”

是的,機器連“标題黨”都不放過!假新聞經常會采用誇大性、空洞的說辭來危言聳聽。真新聞往往行文嚴謹、一絲不苟。

如果說前面兩步,還算是正常操作。第三步,就是關鍵:對傳播路徑的深入分析。

一條謠言在社交網絡裡引爆,必然有無數的人密集關注。在留言、轉發等行為裡,有人贊同,有反對,還有質疑,或者隻是簡單的路過,都是一種态度。

機器統計不僅能統計所有使用者的态度,更不可思議的是,它會“看人下菜”,差別對待每條發言的分量。

比如,我弟轉發了母上發來的新聞,冒着零用錢縮水的危險表示:“假的!昨天食品監督局已經公開辟謠了”——這條反對意見質疑得較為有力,權重提升。

随後,ID為“小旺仔”的使用者也在此條新聞下留言,隻寫了四個字:消息不實。雖然寥寥數字,但是機器一看,不得了,小旺仔的認證資訊是該省第一附屬醫院的醫學教授,權重也得提升。

機器會對所有回報使用者進行畫像分析:是否是認證使用者、過去發表的内容類型、注冊時間、活躍規律、是否和事件發生地在同一個地方等,以此來計算使用者信譽度。最後根據不同态度的人群比例、各自的信譽度,以及處于傳播路徑中的位置等資訊,計算出此新聞的可信度。

“如果有人轉發了小旺仔的留言,表示‘舉雙爪支援’,系統會不會認為這是對新聞的贊同?”我感覺自己抓到了系統漏洞,有點小激動。

泉志表示這個問題提得非常好,接着幹脆地做了否定:“我們的整個傳播路徑是個神經網絡,環環相扣,不會斷章取義的。”以上三步中計算出的資訊會輸入到神經網絡模型中。基于這些資訊,模型會綜合判斷出此新聞是否為謠言。

這個模型的魅力之處在于,你不必為它編寫程式去學習人類的指令:它能完全自主學習訓練,就像人腦一樣“思考”。随着知識庫的日益豐富,它的判斷能力會越來越好。

“簡直是一位飛速成長的大編輯!”我感歎道。

“這還不是全部”,泉志爽朗笑了,“我們還用了多任務學習,‘一心多用’,讓機器在同一時間完成多個複雜任務,判斷内容真假、觀察傳播路徑、挖掘使用者畫像這些都能同時進行。”

在有條不紊的運算機制裡,機器就像一位冷峻的解剖師,切開浮誇的表象,梳理每一條新聞的經脈、肌理走向,抽絲剝繭,層層剝開,最終找到事實的核心。

泉志接着又透露了一個重要資訊——這項技術不僅能控制假新聞源頭、防止謠言大規模擴散,它還有一個隐藏的“大招”。

傳謠容易,辟謠難。謠言的擴散速度猶如遇到林木的大火,一點即燃,但是當真相出來時,卻往往無人問津。

比如,網絡曾謠傳市面上的香蕉大多泡過藥水,許多人從此再沒買過香蕉。即使數年後風頭過去,還有人表示吃香蕉總覺得有藥水味。

這項技術的隐藏”大招“,是可以針對性地為群眾辟謠。根據傳播路徑索引,曾經支援“香蕉浸泡毒液”的人,都可以收到官方的辟謠資訊:香蕉浸泡的白色液體不是甲醛,而是符合國家安全标準的保鮮劑,無毒無害;吃醬油不會變黑、開水重複燒也不會有事,交999元每月回報99的“好事”自然更是子虛烏有。

有始有終,皆大歡喜!

達摩院所研發的“AI謠言粉碎機”,在剛剛結束的SemEval全球語義測試中,創造了假新聞識别準确率的新紀錄,達到了前所未有的81%。

SemEval 是自然語言處理領域的國際權威比賽,由國際計算語言學學會舉辦。假新聞識别是此次比賽的主要項目之一,吸引了哥倫比亞大學、華盛頓大學、艾倫·圖靈研究所等20多路頂級高手參與。

賽題是這樣的:

主辦方向所有參賽者提供社交媒體上470餘條新聞、以及一萬多條相關的留言、轉發等資料。參賽者需要根據這些有限的資訊,判斷這數百條新聞是真是假。

這些似是而非的新聞涉及政治、娛樂、商業、科技等多個領域,比如——

特朗普的差旅開支遠遠低于奧巴馬;

太陽報:英國女王支援英國脫歐;

震驚了!台風過後,高速公路出現一條大鲨魚;

美國九成媒體被六家公司控制;

吉薩金字塔能利用隐秘的房間集中電磁能能量;

此次比賽桂冠由達摩院NLP首席科學家司羅所屬的團隊斬獲,真假新聞二分類上的準确率高達81%,重新整理了本競賽系列上macro F 、RMSE兩項關鍵性名額的世界記錄。

在此之前,達摩院NLP團隊曾在機器閱讀了解頂級賽事SQuAD上,憑借82.440的精準率打破了曆史紀錄;在國際頂級機器翻譯大賽WMT上,連奪英文-中文翻譯、英文-俄語互譯、英文-土耳其語互譯5項第一。

讓機器讀懂人類語言,并判斷人類的表達意圖,進而進一步幫助人類實作對資訊真假的判斷,達摩院的科學家們,從未放棄對技術難題的攻克。

“謠言粉碎機”技術的背後,是一次史無前例的信任重建。隻有假新聞被扼殺在繁衍的溫床裡,破碎将傾的信任才會被重新扶起頂天立地。

而信任,是愛的最好證明。AI = 愛。

繼續閱讀