天天看點

成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖

「第一代知識驅動的 AI 利用知識、算法和算力 3 個要素構造 AI;第二代資料驅動的 AI 利用資料、算法與算力 3 個要素構造 AI。由于第一、二代 AI 隻是從一個側面模拟人類的智能行為,是以存在各自的局限性,不可能觸及人類真正的智能。」清華大學人工智能研究院院長、中國科學院院士張钹等人在今年 9 月份的一篇專刊文章中這樣寫道。

成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖
  在這篇文章中,他們還首次全面闡述了第三代人工智能的理念,提出第三代人工智能的發展路徑是融合第一代的知識驅動和第二代的資料驅動的人工智能, 利用知識、資料、算法和算力 4 個要素, 建立新的可解釋和魯棒的 AI 理論與方法,發展安全、可信、可靠和可擴充的 AI 技術(詳細資訊請參見:《 清華張钹院士專刊文章:邁向第三代人工智能(全文收錄)

》)。

其實,早在 2016 年,張钹教授就提出了發展「第三代人工智能」的理念。在他看來,雖然目前的 AI 已經取得了一些進展,但仍面臨魯棒性差、決策不透明等問題,需要把知識驅動與資料驅動結合起來解決問題。2018 年,由張钹、朱軍(清華大學人工智能研究院基礎理論研究中心主任)擔任首席科學家的瑞萊智慧(RealAI)作為産學研技術公司從清華大學人工智能研究院孵化成立。這家公司的願景是:以第三代人工智能技術為依托,克服一般深度學習存在的諸多缺點,從根本上增強人工智能的可靠性、可信性以及安全性。兩年後的今天,在「2020 第三代人工智能産業論壇暨瑞萊智慧 RealAI 戰略釋出會」上,RealAI 第一次向外界展示了他們基于第三代人工智能技術打造的 AI 原生基礎設施産品藍圖。

成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖
成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖

  論壇上,瑞萊智慧 CEO 田天指出,目前 AI 基礎設施建設的重心集中在資料、算力平台上,主要為 AI 提供基礎運算條件和生産力,打個比方,相當于是解決了 AI 的溫飽問題。資料和算力的快速增長作為「外部驅動力」的确帶動了 AI 技術在包括人臉識别、語音識别等領域的快速發展,驅動 AI 産業「第一增長曲線」的出現。

但随着資料受場景複雜與隐私保護限制、算力增長緩慢等問題的出現,AI 産業的第一增長曲線開始放緩。在此情景下,我們亟需為 AI 産業打開「資料」和「算力」之外的全新次元,從增強算法底層能力出發,發展出AI「内生驅動力」。

不過想要加強AI内生驅動力,有幾道「關卡」需要我們去突破,包括更加安全可靠的決策(AI 決策邏輯和鍊路都不明确、易受攻擊)、資料隐私與安全(資訊洩露、資料孤島)以及 AI 應用場景的管控(算法公平、社會倫理)。

「作為 AI 産業的建設者,我們從基礎設施的角度看待這一問題,在繼承自網際網路時代的資料平台、算力平台之外,需要建設 AI 原生基礎設施,從 AI 技術自身能力出發提供必備保障」,田天表示。

經過兩年的努力,田天等人已經給出了這套基礎設施的藍圖。 

成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖

在算法可靠方面,他們研發了基于貝葉斯深度學習技術的可解釋 AI 模組化平台 RealBox。該平台在 2019 年正式釋出,目前已經在多家金融機構實際使用,并且通過了中國人工智能産業發展聯盟的首批可信 AI 認證。在應用可控方面,他們推出的DeepReal深度僞造檢測工具,能夠高效精準地判斷視訊、圖檔等内容素材是否是經過AI僞造生成的,避免相應輿情,DeepReal 入選了國家工信安全中心人工智能優秀産品,基于其中的核心技術,RealAI 也獲得了 GeekPwn2020 年深度僞造檢測項目冠軍。

除此以外,活動現場還釋出了兩款新品。

成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖
成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖

其中一款是針對資料安全的RealSecure,它是業内首個編譯級的隐私保護機器學習平台,其核心子產品「隐私保護AI編譯器」能夠自動将普通機器學習算法程式轉換為分布式、隐私安全程式,使隐私安全的人工智能商業應用門檻大幅降低。

另一款是針對算法可靠釋出的RealSafe2.0,它是世界首個企業級AI安全平台RealSafe的更新版,相當于是針對AI模型的防毒軟體和防火牆。更新後的RealSafe提供針對目辨別别等算法的安全攻防能力,同時增加了後門漏洞檢測等功能。

田天表示,「這一系列 AI 原生基礎設施可以打開 AI 能力的全新次元,激發 AI 的第二增長曲線,為 AI 賦能各行各業帶來全新市場機會。」

業内首個編譯級隐私保護機器學習平台 RealSecure 亮相

在 AI 的發展過程中,資料是基礎生産力,用于解決 AI 的「溫飽問題」。但由于資料本身難以擷取、加工,還涉及行業機密、使用者隐私等問題,很多資料擁有者不願或不能将資料上傳至一個資料中心進行模型訓練,進而形成了一個個的「煙囪」或「孤島」。

針對這個問題,分布式隐私保護機器學習是一種新興的解決方案,它能使多方合作完成學習目标,但又避免各方傳輸原始資料,這并不是一個全新的概念,類似的術語還包括谷歌等機構提出的「聯邦學習」,實作「資料不出門,可用不可見」,但在實際商業應用中卻面臨三大痛點:

第一是學術界工業界公認的隐私保護機器學習最主要的問題—性能差。隐私保護機器學習需要多方配合執行,多方需要以加密形式完成參數交換,加密帶來了高達百倍的性能損失。同時超參數設定等與既有機器學習生态存在差距,隐私保護機器學習的速度慢了近千倍。本地幾十秒的模型訓練,隐私保護下需要數小時。而特征篩選、模型調參、模型驗證又需要幾十上百次重複模組化流程,為了實作資料安全,極大的犧牲了模組化速度。

第二是隐私保護機器學習難以大規模商業化落地的重要原因—難以相容現有機器學習生态。不同于傳統機器學習,隐私保護機器學習是分布式系統、密碼學、人工智能三個領域的結合。為了實作隐私保護的目标,各家機構要組織團隊學習分布式系統、學習密碼學;學習使用新算法、新架構,并在新平台下執行程式。這也意味着,AI 團隊長期以來積累下的經驗和方法論在隐私保護機器學習領域無法直接運用,重建或改寫的投入與代價非常之大。

第三隐私保護最核心的問題是保障資料财産的安全,這也意味着,平台自身的安全性應該是可被檢驗的。現有模式都是純黑盒運作,安全性檢驗完全依賴專家背書,但整個平台代碼量巨大,專家逐行審計模式難以實作。而且實際生産環境中,是否真的按照審計時提供的代碼邏輯執行,也都難以保障。

隐私保護機器學習平台 RealSecure 就是在以上需求下誕生的,它首創以底層資料流圖的視角揭示機器學習算法與對應分布式隐私保護機器學習算法的聯系,通過算子組合将機器學習生态與隐私保護機器學習生态一脈打通,解決企業搭建隐私保護生态面臨着的性能差、易用性差、黑盒協定等諸多難題,實作兩大生态的一體化。

得益于底層編譯級的能力,RSC 具備三大優勢:

  1. 性能強勁。借助密碼學優化、AI 算法優化等改進實作,模型訓練相比某主流國産開源架構(最新版)性能提升約 40 倍,耗時從 4 小時 40 分鐘縮減至 6 分鐘。考慮到特征工程與自動調參環境,隐私保護下完成全流程模組化,總耗時實作從日級别到小時級别的飛躍。
  2. 無感應用。實作機器學習生态與隐私保護機器學習生态的「一脈相承」,僅需要少量改動,可以通過自動轉換完成機器學習算法平台架構與隐私保護機器學習平台架構的統一,資料科學家能夠以與機器學習模組化相同的方式使用隐私保護機器學習,易用性大幅提升。
  3. 安全透明。真正的隐私保護學習應用應該是白盒可驗證的,所有底層執行的計算是可審計的,這樣才能保證隐私保護學習平台的安全性。RealSecure 以資料流圖形式,将中間計算過程公開,實作計算過程的安全透明。
成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖

RealAI 表示,易用性與性能的颠覆性提升,也讓 RealSecure 成為更快更容易應用到商業環境的「企業級」隐私保護機器學習平台。

在釋出會現場,田天還闡明了他們開發這兩款産品的理念:「當在應用中碰到技術難題時,我們不是見一個解決一個,修修補補;而是發現一個問題就看到一類問題,并通過底層技術架構、平台的突破,助力産業的更新。今天我們重點釋出的兩款新品都是這一理念的典型代表,它們的産品定位、功能和價值都是獨一無二,RealAI 首創。」

世界首款企業級 AI 安全平台 RealSafe 迎來 2.0

在網絡安全時代,網絡攻擊的大規模滲透催生出一大批防毒軟體。但随着 AI 逐漸成為基礎設施的一部分,針對 AI 模型的「防毒軟體」卻一直處于缺位狀态。

這種缺位存在巨大的安全隐患。資料顯示,去年就已經有超過 40% 的手機配備了人臉識别方案,但其中一些通過一副印有特殊紋理圖案的眼鏡就能輕松解鎖。

成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖
成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖

如果說手機影響的隻是隐私和财産安全,那自動駕駛系統的安全漏洞則是真正的緻命威脅。國際管理咨詢公司(Roland Berger)預測,2020 年全球自動駕駛車端系統的市場規模有望超過 1000 億美元。但與此同時,黑客隻需要在辨別牌上加上特定圖案就可以讓機器把限速辨別識别為停止辨別,導緻緻命事故的發生。

成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖
成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖

要徹底解決這些問題,我們需要了解深度神經網絡等 AI 算法是如何學習和工作的,但直到今天,我們仍對此知之甚少。是以,我們可能需要換一個思路。

對此,RealAI 給出的解決方案是:模型安全檢測 + 防禦。也就是說,我們可以先通過多種攻擊方法對模型的安全風險類别和高低進行檢測,然後提供多種方案提升模型的安全性。這就是他們今年年初推出的世界首款企業級 AI 安全平台——RealSafe。

在安全檢測階段,RealSafe 會利用多種攻擊算法生成不同疊代次數、擾動大小的對抗樣本進行模拟攻擊,嘗試使其出錯,然後統計其出錯的機率和分布,輸出檢測報告。該平台相當于一款「防毒軟體」,整個檢測過程全界面化操作,使用者無需具備專業的模型安全算法知識和程式設計開發經驗。

在防禦階段,RealSafe 支援多種去除對抗噪聲的通用防禦方法,可實作對輸入資料的自動去噪處理,破壞攻擊者惡意添加的對抗噪聲。同時,RealSafe 也支援檢測輸入資料是否含有對抗樣本,這種防禦方式在模型和輸入資料之間建構了一道「防火牆」,将有攻擊意圖的資料擋在了模型之外。

今年 4 月份,RealAI 釋出了 RealSafe 1.0,可用于提高人臉識别模型的安全性,提高應對對抗樣本攻擊(如上文中印有特殊紋理圖案的眼鏡)的能力。幾個月後的今天,RealSafe 實作了快速疊代,2.0 版本正式上線。與 RealSafe 1.0 相比,2.0 版本在支援防禦的攻擊類型、适用範圍等方面進行了擴充。

成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖
成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖

首先,在檢測抗對抗樣本攻擊的安全性基礎上,新版本增加了「模型後門攻擊」自動化檢測,可以針對模型每個類别搜尋并還原後門觸發器的最終結果,并依據還原結果的離散程度判别模型是否被植入後門。此外,測試報告還可以展示出模型被植入後門的類别以及對應的後門所在區域。

「模型後門攻擊」是一種新興的針對機器學習模型的攻擊方式,攻擊者會在模型中埋藏後門,使得被感染的模型在一般情況下表現正常。但當後門觸發器被激活時,模型的輸出将變為攻擊者預先設定的惡意目标。由于模型在後門未被觸發之前表現正常,是以這種惡意的攻擊行為很難被發現。雖然目前來看這種攻擊方式在實際場景中還不太常見,但針對可能存在的攻擊對算法進行加強仍然具有重要意義。這也表現了 RealAI 在産品布局上的前瞻性。

其次,2.0 版的 RealSafe 将适用範圍擴充到了目标檢測、圖像分類等底層 AI 模型。前者的典型應用場景包括安防場景中的人體檢測、車輛、無人機檢測,以及自動駕駛場景中的人體檢測、車輛檢測等。後者的典型應用場景包括社交網絡與短視訊應用的色情、暴恐、侵權元素的識别,手機相冊的自動分類等。這些場景也是目前 AI 模型應用最廣泛、安全需求最迫切的領域。

在進行安全性檢測後,RealSafe 平台還提供了多種功能幫助使用者提升 AI 模型安全性。以對抗樣本去噪為例,平台将自動針對已被測的模型,量化出多種通用對抗樣本去噪方案對模型安全性的提升效果,便于使用者選擇最适合目前被測模型的防禦解決方案。

RealSafe 內建了多項國際領先的 AI 對抗攻防算法,榮獲多項世界 AI 安全大賽冠軍。與業界已有的一些人工智能對抗技術工具包相比,RealSafe 還具有支援基于生成模型的對抗樣本攻防、支援黑盒檢測、零代碼易上手等優勢。  

成立兩年,清華出身的他們用産品描繪出了基于第三代AI的基礎設施藍圖

目前,RealSafe 已在工信部重大建設項目以及某電網公司落地應用。

RealAI 表示,未來,RealSafe 還将提供應對模型竊取、資料逆向還原等新型 AI 安全風險的解決方案。

底層技術與應用場景

為了打造基于第三代 AI 的基礎設施,RealAI 應用了多項技術,包括:

  • 貝葉斯深度學習:将深度學習和貝葉斯方法的優勢有機結合,将資料和預測結果中天然存在的不确定性納入考慮,提升 AI 模型的泛化能力,進而實作可靠可解釋的 AI;
  • 可解釋機器學習:保證在模組化過程中,從關鍵特征和決策相關依據等不同次元給出解釋,增進人們對 AI 結果的了解;
  • AI 安全對抗攻防:通過對抗的方式發現 AI 算法存在漏洞的機理,并通過對抗防禦技術指導魯棒 AI 算法和系統研發;
  • 新一代知識圖譜:将領域知識引入到 AI 模組化中,實作知識與資料的共同驅動;
  • 隐私保護機器學習:解決 AI 場景下的資料流通問題,實作在明文資料不出庫的情況下,通過與密碼學和分布式系統結合的方式,支援 AI 模型的訓練和預測;同時保證 AI 對資料的用量和用途,控制權屬和收益。
  • ……

這些技術的運用極大地提高了 AI 技術在現實場景中的可用性。RealAI的AI基礎設施産品已經用于解決金融風控場景中的資料有偏、資産配置效率低、基建場景中的資料缺失等問題。

為了進一步從研究、平台、産業賦能三方面持續發力,加速安全、可信、可靠的産業智能化更新,RealAI 也與北京智源人工智能研究院聯合成立安全人工智能創新中心,助力人工智能産業負責任發展。

AI 基礎設施的建設是一項長期任務,田天表示,RealAI 将「堅持長期主義,推動 AI 更高品質的服務于人類社會。」

© THE END 

轉載請聯系本公衆号獲得授權

投稿或尋求報道:[email protected]

繼續閱讀