AI=愛，阿裡達摩院的“謠言粉碎機”拯救了爸媽朋友圈

小編有話說：從那句熟悉的“狼來了”開始，謠言開始在我們生活無孔不入，一些不壞好意的人，把謊言變成一張漂亮的包裝紙，裹挾着詐騙、虛榮、不懷好意，肆意橫行。總有人想改變這一切。阿裡達摩院的科學家們最近在用AI識别謠言的研究上，有了一些小突破。

當全民瘋搶闆藍根食鹽白醋，終日人心惶惶；

當“養生秘聞”“200%理财回報”充斥在朋友圈，無數養老錢血本無歸；

當“寒門狀元之死”透支人們對世界的信任；

......

人們被迫練就了一身硬邦邦的铠甲，一邊斜眉冷視周圍的世界，一邊草木皆兵地生存。甯可信其有，不可信其無。然而，總有人想改變這一切。達摩院的科學家們最近在用AI識别謠言的研究上，有了一些小突破。

一

在了解到這個資訊後，我第一時間采訪到了達摩院NLP團隊的核心成員之一——李泉志，他大學畢業于清華大學，後在美國獲得自然語言了解方向的博士學位，目前在達摩院的西雅圖辦公室工作。

在加入達摩院前，他曾是世界級通訊社——路透社重要的“情報官”：通過機器篩選成千上萬的網絡資訊，為數千位一線記者提供可靠線索。借着這個難得的機會，我“假公濟私”，請泉志使用算法鑒定一條關于發來“速轉！科學家發現：一味中藥48小時可殺死60%癌細胞!”的新聞真假，還原“打假”現場。

在泉志的詳細說明下，一個令人驚歎的“打假”模型逐漸露出。事實上，這個運算邏輯遠比我之前想得要複雜，甚至顯得有點“老謀深算”。

泉志告訴我，判斷一個新聞真假，要分三個步驟。首先，在盤根錯節的資訊裡，機器會找到最初的信源，分析其使用者畫像（專業領域，個人或機構，機構類型，影響力，過去發表的内容類型，是否可信，地域，注冊時間，活躍規律等），進而判斷此釋出者的信譽度。

如果這條新聞帶有連結，我們可以再看看連結的域名，是否來自可信網站，比如新華社、政府醫藥管理局。

接下來，我們拿起聽診器，細細揣摩正文的“心跳聲”：

“一味中藥48小時可殺死60%癌細胞！”打開正文，我們看看究竟這味中藥的成分是哪些？具體對哪些癌細胞起作用？機器會把這些關鍵的論證提煉為知識點，與知識圖譜裡的權威知識庫做比對驗證。如果毫無聯系、自相沖突，減分。

泉志表示，除了内容不實、上下文邏輯不連貫外，機器還能從行文風格裡找到蛛絲馬迹。比如：

“多一次轉發就多一次活命機會”

“傳瘋了！晚上一定要關wifi，太吓人了”

是的，機器連“标題黨”都不放過！假新聞經常會采用誇大性、空洞的說辭來危言聳聽。真新聞往往行文嚴謹、一絲不苟。

如果說前面兩步，還算是正常操作。第三步，就是關鍵：對傳播路徑的深入分析。

一條謠言在社交網絡裡引爆，必然有無數的人密集關注。在留言、轉發等行為裡，有人贊同，有反對，還有質疑，或者隻是簡單的路過，都是一種态度。

機器統計不僅能統計所有使用者的态度，更不可思議的是，它會“看人下菜”，差別對待每條發言的分量。

比如，我弟轉發了母上發來的新聞，冒着零用錢縮水的危險表示：“假的！昨天食品監督局已經公開辟謠了”——這條反對意見質疑得較為有力，權重提升。

随後，ID為“小旺仔”的使用者也在此條新聞下留言，隻寫了四個字：消息不實。雖然寥寥數字，但是機器一看，不得了，小旺仔的認證資訊是該省第一附屬醫院的醫學教授，權重也得提升。

機器會對所有回報使用者進行畫像分析：是否是認證使用者、過去發表的内容類型、注冊時間、活躍規律、是否和事件發生地在同一個地方等，以此來計算使用者信譽度。最後根據不同态度的人群比例、各自的信譽度，以及處于傳播路徑中的位置等資訊，計算出此新聞的可信度。

“如果有人轉發了小旺仔的留言，表示‘舉雙爪支援’，系統會不會認為這是對新聞的贊同？”我感覺自己抓到了系統漏洞，有點小激動。

泉志表示這個問題提得非常好，接着幹脆地做了否定：“我們的整個傳播路徑是個神經網絡，環環相扣，不會斷章取義的。”以上三步中計算出的資訊會輸入到神經網絡模型中。基于這些資訊，模型會綜合判斷出此新聞是否為謠言。

二

這個模型的魅力之處在于，你不必為它編寫程式去學習人類的指令：它能完全自主學習訓練，就像人腦一樣“思考”。随着知識庫的日益豐富，它的判斷能力會越來越好。

“簡直是一位飛速成長的大編輯！”我感歎道。

“這還不是全部”，泉志爽朗笑了，“我們還用了多任務學習，‘一心多用’，讓機器在同一時間完成多個複雜任務，判斷内容真假、觀察傳播路徑、挖掘使用者畫像這些都能同時進行。”

在有條不紊的運算機制裡，機器就像一位冷峻的解剖師，切開浮誇的表象，梳理每一條新聞的經脈、肌理走向，抽絲剝繭，層層剝開，最終找到事實的核心。

泉志接着又透露了一個重要資訊——這項技術不僅能控制假新聞源頭、防止謠言大規模擴散，它還有一個隐藏的“大招”。

傳謠容易，辟謠難。謠言的擴散速度猶如遇到林木的大火，一點即燃，但是當真相出來時，卻往往無人問津。

比如，網絡曾謠傳市面上的香蕉大多泡過藥水，許多人從此再沒買過香蕉。即使數年後風頭過去，還有人表示吃香蕉總覺得有藥水味。

這項技術的隐藏”大招“，是可以針對性地為群眾辟謠。根據傳播路徑索引，曾經支援“香蕉浸泡毒液”的人，都可以收到官方的辟謠資訊：香蕉浸泡的白色液體不是甲醛，而是符合國家安全标準的保鮮劑，無毒無害；吃醬油不會變黑、開水重複燒也不會有事，交999元每月回報99的“好事”自然更是子虛烏有。

有始有終，皆大歡喜！

三

達摩院所研發的“AI謠言粉碎機”，在剛剛結束的SemEval全球語義測試中，創造了假新聞識别準确率的新紀錄，達到了前所未有的81%。

SemEval 是自然語言處理領域的國際權威比賽，由國際計算語言學學會舉辦。假新聞識别是此次比賽的主要項目之一，吸引了哥倫比亞大學、華盛頓大學、艾倫·圖靈研究所等20多路頂級高手參與。

賽題是這樣的：

主辦方向所有參賽者提供社交媒體上470餘條新聞、以及一萬多條相關的留言、轉發等資料。參賽者需要根據這些有限的資訊，判斷這數百條新聞是真是假。

這些似是而非的新聞涉及政治、娛樂、商業、科技等多個領域，比如——

特朗普的差旅開支遠遠低于奧巴馬；

太陽報：英國女王支援英國脫歐；

震驚了！台風過後，高速公路出現一條大鲨魚；

美國九成媒體被六家公司控制；

吉薩金字塔能利用隐秘的房間集中電磁能能量；

此次比賽桂冠由達摩院NLP首席科學家司羅所屬的團隊斬獲，真假新聞二分類上的準确率高達81%，重新整理了本競賽系列上macro F 、RMSE兩項關鍵性名額的世界記錄。

在此之前，達摩院NLP團隊曾在機器閱讀了解頂級賽事SQuAD上，憑借82.440的精準率打破了曆史紀錄；在國際頂級機器翻譯大賽WMT上，連奪英文-中文翻譯、英文-俄語互譯、英文-土耳其語互譯5項第一。

讓機器讀懂人類語言，并判斷人類的表達意圖，進而進一步幫助人類實作對資訊真假的判斷，達摩院的科學家們，從未放棄對技術難題的攻克。

“謠言粉碎機”技術的背後，是一次史無前例的信任重建。隻有假新聞被扼殺在繁衍的溫床裡，破碎将傾的信任才會被重新扶起頂天立地。

而信任，是愛的最好證明。AI = 愛。

AI=愛，阿裡達摩院的“謠言粉碎機”拯救了爸媽朋友圈

繼續閱讀

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普