天天看點

守護工業網際網路安全,可信隐私計算風起

機器之心釋出

機器之心編輯部

工業網際網路的發展帶來了龐大體量的資料,且增速非常快,對資料安全有強訴求,包括工業網際網路在内的整個資料流通領域,都會告别資料明文時代,開啟資料密态時代新征程。

資料正成為新時代的石油。但與資料石油并存的還有采集、共享與流通障礙制造的孤島與各種風險。

2021 年 9 月 1 日,曆經三次審議,《資料安全法》正式實施。多部有關資料安全法律法規,凸顯出資料領域合規發展的需求,也将原本小衆的隐私計算推到更多人的面前。

所謂隐私計算,是指在保證資料提供方不洩露原始資料的前提下,對資料進行分析計算的一系列資訊技術,保障資料在流通與融合過程中的“可用不可見”“可算不可識”。

隐私計算并非單一技術,而是一套包含 AI、密碼學、資料科學等跨學科知識的技術體系。多方安全計算、聯邦學習、可信執行環境等作為隐私計算的重要技術分支,理論基礎研究已開展多年。

這幾年,金融、醫療、政務等行業資料合規迫切需求,已經使得實作資料 “可用不可見”、“可算不可識” 成為普遍需求。随着工業網際網路邁向資料密态時代,無論是工業資料價值保護、資料資産界定,還是工業網際網路價值的真正釋放,隐私計算都是一種非常好的解決方案。

守護工業網際網路安全,可信隐私計算風起

“工業資料密态時代需要擁抱可信隐私計算。” 在 3 月 25 日舉行的工業網際網路安全講壇上,螞蟻集團副總裁韋韬發表了題為《迎接工業資料密态時代,擁抱可信隐私計算》的演講,詳細闡述了資料密态時代的技術特征,提出可信隐私計算技術将是工業資料密态時代的解決方案,可以支撐類如 “東數西算” 級别的大規模資料場景。

守護工業網際網路安全,可信隐私計算風起

機器之心對韋韬演講内容做了不改變原意的整理。

一、邁向資料密态時代的技術挑戰

工業網際網路概念由美國企業 GE 提出,是新一代資訊通信技術與工業經濟深度融合的全新工業生态、關鍵基礎設施和新型應用模式。

“這是一個非常宏大的行動計劃。”韋韬解釋道,以網絡為基礎、平台為中樞,以資料為要素,通過對人、機、物全面連接配接安全為保障的發展體系,變革傳統制造模式、生産組織方式和産業形态,建構起全要素、全産業鍊、全價值鍊、全面連接配接的新型工業生産制造和服務體系。

概念雖然源自美國,但中國對工業網際網路有着更加系統化和前瞻性的規劃。

例如,2021 年 2 月,工業網際網路專項工作組印發的《工業網際網路創新發展行動計劃(2021-2023 年)》(工信部信管〔2020〕197 号)提出了五方面、11 項重點行動和 10 大重點工程,着力解決工業網際網路發展中的深層次難點、痛點問題。其中,明确了資料是平台應用的關鍵資源,要推動資料彙聚、流轉、分析、應用,進一步發揮資料在工業網際網路創新發展中的重要作用。

工業網際網路的發展對資料的訴求非常強,甚至有不少專家認為,隻有把工業網際網路資料流通的問題解決,工業網際網路的價值才能真正展現出來。

資料要素流通是工業網際網路産生價值的重要基礎,韋韬稱。互聯、資料采集是工業網際網路産生價值的基礎,隻有做到互聯與采集資料,而不是止步于連通性(connectivity),分析與智能化才有價值。

在工業網際網路領域,資料要素流通至關重要的,是整個工業網際網路産生價值的重要基礎。但同時,挑戰也顯而易見。

守護工業網際網路安全,可信隐私計算風起

例如,工業網際網路以兆 PB 的方式來做計算,資料量級非常龐大,增速非常驚人。經常有業界人士感慨,工業網際網路、物聯網産生的資料如此龐大,一些新興的資料庫技術如何做這種特殊的比對,是非常難處理的一件事。

我們可以在一些高科技地區看到很多自動駕駛公司實驗車輛出沒,這些車上頂着各種各樣的探頭,各種各樣的傳感器,這種傳感器其實是把周圍的人和環境,和這些工業網際網路的資料耦合在一起。這些傳感器資料的重要性也逐漸被廣泛關注,如果缺乏相關安全管控,甚至可能引發國家安全相關問題。

工業網際網路資料是網際空間(cyber space)和實體空間的一個強耦合點。“(資料)處理挑戰非常大,(資料)量級極其驚人,資料重要性也非常高,甚至涉及到國家安全層面,它的安全保障也非常的重要,這就是整個行業面前的一個嚴峻的挑戰。” 韋韬稱。

工業網際網路資料傳統上以商業化資料為主,但也能看到越來越多的涉及到個人資料的融合。

國家十分重視資料安全的重要性。例如,習總書記明确指出“網絡安全和資訊化是一體之兩翼、驅動之雙輪,必須統一謀劃、統一部署、統一推進、統一實施。”

國務院辦公廳的《要素市場化配置總和改革試點總體方案》第二十條建立健全資料流通交易規則中強調了“原始資料不出域。”

無論是政策法規要求,還是技術成熟度,整個資料流通領域,包括工業網際網路的資料要素流通,都會告别資料明文時代,開啟資料密态時代新征程。

二、技術挑戰與可信隐私計算

資料密态時代對技術提出了五大要求,亦即:性能高、穩定性強、靈活适用、成本低、安全性強。

守護工業網際網路安全,可信隐私計算風起

首先,作為實作資料安全的基礎設施技術,最基本要求是性能要足夠高,要達到每小時訓練億級樣本的量級。一旦上到多方安全計算、聯邦學習,它的性能下降極其嚴重。是以,需要更加全面的技術架構,來支撐性能上的要求。

其次,作為一項關鍵基礎設施,對技術的穩定性也有非常高的要求。服務國計民生的基礎設施可靠性至少要 4 個 9 以上,而行業靠前的服務提供者基本上都要向 5 個 9 的級别來努力,難度非常大,但也是關鍵基礎設施技術必須滿足的要求。

第三,作為關鍵基礎設施的技術,成本要足夠低。隻有讓其成為快消品而不是奢侈品,才能成為行業基石。總體上,密态計算的成本增加,不應該超過明文計算成本增加的一個數量級。

第四,技術在實際應用中的适用性要強,算法和安全評估不能随着場景或者參與方的增加而變動。

最後,作為上述所有特性的基礎,技術的安全性要符合相關級别的要求,能夠達成行業共識。安全性是一個隐性要求,不能為了提高性能降低成本,損失安全性,這也違背了資料密态時代大的訴求方向。

不過,如何保障安全性面臨非常嚴峻的挑戰。從産品來看,融合和根據需求适配已經成為趨勢。滿足資料密态時代的産業需求,僅靠單一技術是不夠的。

事實上,實作這樣的資料安全要求的隐私計算技術流派曾一度成為熱門話題。比如,可信計算環境 TEE 無需深入研究算法和密碼學,依靠可信硬體實作資料保護,但也面臨着系統安全的諸多挑戰;多方安全計算曆史悠久,提供大量底層安全技術;聯邦學習則結合密碼學和分布式計算實作多方協作的機器學習。

“未來趨勢是将密碼技術、可信計算技術等多項技術融合形成可信隐私計算,”韋韬認為。

三、為什麼是可信隐私計算技術

可信隐私計算的核心是,在隐私計算技術體系層面提供可信支撐,對個人資訊和敏感資料提供高效的、全生命周期的安全合規保障。業界可以在可信隐私計算的架構下,有效解決當下面臨的合規、業務支撐、安全保障等挑戰。

守護工業網際網路安全,可信隐私計算風起

例如,可信隐私計算可以很好滿足企業合規要求。2021 年 11 月 1 日正式實施的《個人資訊保護法》一共出現了 27 次同意。

“每一新應用場景使用個人資訊,都要獲得個人明确單獨授權,資料不出域、可用不可見,都要先有授權,概括授權已經是明确違法違規。” 韋韬稱,27 個同意形成的“授權牆”,對隐私權保障提供了非常堅實的基礎,同時也對行業資料應用也提出了非常嚴峻的挑戰。

例如,AI 模型訓練,如果每一個新應用場景的 AI 模型訓練,都需要每一條資料主體個人的重新授權。大多數場景因為這樣巨大的授權挑戰将難以獲得無偏見的訓練資料,進而導緻 AI 技術的應用效果受到嚴影響。對于風控等與黑灰産對抗的領域,黑灰産所使用的賬号,更不可能給予相關授權。

在這樣的要求下,經過立法方、監管和從業者很多密切的溝通後,為行業發展留下核心切口是匿名化。

“匿名化是一個非常嚴格的要求,指個人資訊經過處理,無法識别特定自然人,而且不能複原的過程。” 韋韬表示,我們把這個法條歸納總結成“可算不可識”,其實是法律條款對技術要求的展現。

“它的關注點不是對于資料如何脫敏,而是資料處理、資料流動、價值提取的過程中間必須滿足匿名化的要求,嚴格保持特定個人身份不能被識别。‘可算不可識’是要在滿足匿名化要求的同時,提升資料要素應用的能力。”

匿名化應該是在安全受控環境内的相對匿名化。韋韬稱,我們應該把資訊處理環境控制起來,并不是做了去辨別、脫敏,就可以堂而皇之地挂在網際網路上,讓任何人去分析,任何人去處理。“把環境控制住,保障個體顆粒度資料要素價值能夠持續。”

在這種情況之下,可信計算技術實際上是非常好的一個技術,因為它能夠不依賴于個體人運維和審計能力,而是可以通過技術手段在網絡上進行遠端驗證,來保障這些資料不被濫用。

可信計算的關鍵技術支點包括:運作環境隔離,即資料的存儲、傳輸與處理環境與外部有效隔離;遠端驗證,資料處理和輸出的管控機制可以遠端驗證;TPM/TCM 支援的遠端審計,資料處理和輸出的過程和結果可以遠端審計,支援後繼上鍊。

除了相對匿名化領域,可信隐私計算的适用性和可靠性也有望解決工業網際網路領域的業務瓶頸。

例如,工業網際網路資料規模極其龐大,而且增速非常快。目前隐私計算有一個比較嚴峻的瓶頸就是它的資料計算都是需要高頻度跨網的計算。

要跨網就無法回避公網或者專線帶寬、時延帶來的嚴重瓶頸。包括聯邦學習在内,做 30 萬資料的 GBDT 樹模型訓練,在目前普通的公網或專線條件之下,30 萬樣本(每個樣本 400 維屬性資料)這樣普通的小規模資料集,需要 8 個小時。在大規模的行業應用中非常受限,對于工業網際網路資料來說,這個規模其實遠遠不夠用的。

另外,由于所有的計算都要很強地依賴于跨網絡互動,導緻成本非常昂貴。即使在雲計算環境裡面,最貴的成本不是計算成本,也不是存儲成本,而是帶寬成本,而這恰恰是一個現在跨網絡隐私計算的一個核心依賴。

為此,螞蟻集團在可信隐私計算技術架構下首創可信密态計算技術,(Trusted-Environment-based Cryptographic Computing,簡稱 TECC),将可信計算技術 TPM、TEE 與多方安全計算技術 MPC、聯邦學習 FL 有機的結合起來,符合多方安全計算标準要求,有效抵抗困擾 TPM、TEE 的供應鍊攻擊、側信道攻擊問題。

守護工業網際網路安全,可信隐私計算風起

可信密态計算,是把所有的資料以密态分片的形式,跑在多個 TEE 群上,任何一個 TEE 叢集,單獨的 TEE 叢集上面所獲得的所有的分辨資訊是不可能推出任何有效明人資訊的,做這樣的保障非常好地抵禦了困擾 TEE 的供應鍊攻擊和磁性抗攻擊。

而且,由于它的計算上傳雖然還是由各參與方密态分辨以後上傳到 TEE 叢集裡面來,但是它計算是在一個彙聚點,TEE 可以遠端驗證做安全保障的彙聚點叢集上來做計算。

可信密态計算技術滿足了可信隐私計算對技術能力要求最高的适用性和可靠性,不受制于帶寬的瓶頸,性能可靠性和成本上都有顯著,能夠滿足如 “東數西算” 這樣的大規模的資料場景。

四、落地挑戰需要行業共建

誕生幾十年的隐私計算技術,如今再度火熱。總體而言,行業目前還處在發展初期。

國内涉足隐私計算的公司大緻分為四類。一類是網際網路平台企業,比如螞蟻集團,一類是專注隐私計算的初創。還有其他從大資料公司轉型而來的玩家,以及一些區塊鍊公司。

産品層面,據中國信通院統計,截止 2021 年 7 月,依據中國通信标準化協會隐私計算相關标準,通過中國通信院雲計算與大資料研究所隐私計算産品測試的技術,有 50 家公司的 67 個産品。

行業即将迎來整個資料密态時代,包括工業網際網路場景,整個全面的社會的數字化轉型。可信隐私計算的合規性,它的實用性、可靠性、安全性上面都能做出新的突破,能夠真正保護好資料安全。

2021 年,畢馬威與微衆銀行聯合釋出隐私計算行業研究報告顯示,三年後,軟體銷售和服務收入潛在規模可達 100 億到 200 億元。

同時也要清醒認識到,隐私計算産品的成熟度與工程化水準還在提升過程中、性能與安全兼得的兩難以及技術信任等問題,仍然有待突破。而且,技術也并非萬能,諸如工業網際網路面臨的資料流通、共享仍需要各方,特别是監管法律的完善與健全。

“隐私計算行業還處于起步階段,政策、法規、以及技術的發展,相關生态的互聯互通,都需要全行業的共同努力。” 韋韬表示。

繼續閱讀