天天看點

詳解華為6G系統的資料治理架構技術

老彭帶你讀書!

導讀:今天的數字化社會中,資料非常重要。未來6G系統将會産生、收集和交換大量的資料。各種營運管理任務,比如配置、性能監控、故障管理,都需要用到這些資料。這些資料還将作為知識經驗與其他系統和業務領域交流,産生更廣泛的價值。隻有通過這樣的交流,移動通信系統才能幫助垂直行業以及其他行業取得更大發展。

作者:童文、朱佩英

資料的使用範圍不同,資料治理本身不論是經濟内涵還是技術内涵也不同。資料治理是指通過相關流程和技術,對資料進行管理、維護和深度開發,獲得可以作為組織關鍵資産的高品質資料。

每個移動網絡營運商(Mobile Network Operator,MNO)将移動通信系統中産生的資料按技術域隔離并單獨存儲,這些技術域包括無線接入網(Radio Access Network,RAN)、核心網(Core Network,CN)、傳輸網(Transport Network,TN)以及運作、管理和維護(Operation, Administration, and Maintenance,OA&M)等。不同網元、不同參與者擁有的資料不夠公開透明,由此帶來的資料孤島是資料采集和共享中的主要瓶頸。

另一方面,大型OTT(Over-The-Top)業務公司在資料治理和變現政策方面(如資料存儲、分析服務、API接口)積累的專業知識遠遠領先于電信領域公司。

6G系統的資料治理方案将為AI和感覺業務提供有力支援,将催生新的業務方式和系統特性。

01

設計要點和原則

資料治理的範圍遠不止是傳統的資料采集與存儲。總體上,系統設計需要考慮四個方面,如圖1所示。

詳解華為6G系統的資料治理架構技術

▲圖1 資料治理的設計要點

1. 資料可獲得性和品質

資料可獲得性和品質是AI能否在各行業中得到應用的最大挑戰之一。提高資料的可獲得性,意味着資料不能僅僅來自單個系統、單個領域,而需要同時來自多個系統的不同領域。這就提出了一個根本問題:如何打破(多廠商、多營運商、多行業之間的)實體邊界,讓資料進入異構資料海洋?

一旦收集并利用了原本分散且互相隔離的資料,另一個問題随之而來:如何提高資料的品質?海量資料的擷取,并不意味着擷取的資料是可用的、高品質的。同時,在考慮降低資料處理計算複雜度和能耗的同時,還需要提高資料處理效率。

2. 資料主權

随着社會的全數字化轉型,資料主權、資料安全和隐私的重要性空前突出,很多國家都制定了隐私保護的法律法規。服務提供商也在不斷更新它們的隐私保護方案,主要國家政府也正在制定或已釋出了資料管理相關的規定。

例如,歐盟2018年頒布的《通用資料保護條例》(General Data Protection Regulation,GDPR)就從歐盟層面上規範了資料的使用。2019年,中國頒布了《資料安全管理辦法》,與2016年頒布的《網絡安全法》一起構成了中國版的GDPR。美國也正在實施隐私相關的法律,例如加州的《消費者隐私保護法》(Consumer Privacy Act)已于2020年1月正式生效。

如何充分挖掘資料的内在價值,為各種業務提供精确支撐的同時兼顧隐私保護,尊重資料主權,已成為近年來的熱門話題。6G系統設計應當考慮到監管的不确定性,尤其是存在于不同地區之間的監管差異帶來的不确定性。

3. 知識管理

一般來說,知識可以看作是經過處理後的具有特定用途或價值的資料,可以被不同技術和業務領域的實體實體或虛拟實體直接使用。

知識管理包括知識的生成、更新和開放。就知識的生成和更新來說,我們需要仔細把關資料的來源和品質,采取措施攔截不可靠甚至是惡意的資料源産生的低品質和有害資料。而将知識作為一種能力對外開放,則需要适合的平台和接口設計。

4. 法律問題

各種各樣的傳感器和其他技術可以實時産生資料,這讓資料收集和使用越來越複雜和敏感。資料生成能力的提升不僅提供了新的資料流和内容類型,同時也引發了政策和法律對資料濫用的關注:别有用心的機構或政府可能利用這些能力達到社會控制的目的。

同時,新技術能力也讓普通人難以分辨技術内容的真假。比如,普通人就很難區分一段真實視訊和一段“深度僞造”(deep fake)的視訊。維

護技術的社會利益和防止技術能力被用于實施社會控制、剝奪自由之間存在一種脆弱的平衡,如何保護這一平衡,變得愈發重要。為了識别欺詐行為、防止先進技術被濫用,需要更嚴格的法律和政策手段。

02

架構特點

獨立的資料面是資料治理系統設計中的關鍵特性(如圖2所示),它将為6G系統提供資料相關的通用能力,進而為6G系統内部和外部功能提供透明、高效、内生安全和隐私保護。下文将介紹基本概念和相關網絡功能和業務。

詳解華為6G系統的資料治理架構技術

▲圖2 獨立的資料面實作完整的資料治理

1. 獨立資料面

獨立資料面旨在實作6G系統的資料治理方案,它處理的資料來自不同業務實體。不論資料來自哪裡,資料的整個生命周期都在這一平面完成處理,包括資料生成與收集、資料處理與分析、資料業務發放。

是以,獨立的資料面可以為外部商業實體(如汽車、制造和醫療等垂直行業)提供資料服務,也可以為6G系統本身(如控制面、使用者面和管理面)提供網絡自動化和優化服務。網絡運作相關的配置、狀态、日志,以及使用者個人資料、傳感器資料、其他各方提供的資料都是收集的對象。

收集到的資料會形成豐富的資料資源,這些資料資源可以以分布式的形式被組織起來。為了防止直接将原始資料用于AI和感覺等應用而導緻的問題,原始資料在被使用之前通常需要預處理(如匿名化、資料格式再塑、去噪、轉換、特征提取等)。

為確定資料完整、過程合規,資料處理過程中所涉及的政策(如地理限制、國家或地區隐私法規等規定),不論是否來自監管層面,都預設需要遵守。将資料傳遞至資料面時,還需要遵守資料合同中約定的資料使用權利和義務。資料脫敏是保護隐私的關鍵,資料面需要提供這一服務。

上述由資料面提供的所有服務,都由自包含的OA&M系統來營運管理。

資料面的另一重要功能是基于資料收集、處理和編排生成知識。為了協調來自不同資料源的資料的處理和傳輸,知識的生産也需要按照合同要求進行。

随着新的資料源、資料模型、資料主題被資料客戶關注和使用,資料治理架構可以不斷演進、不斷充實。是以,資料治理架構的營運管理和架構的實時發展是可以并行的。

由于資料面是一個邏輯概念,是以可以通過集中式分層架構實作,也可以作為一種分布在邊緣或深度邊緣節點上的邏輯功能實作。接下來我們将探讨資料面的一些關鍵要素。

2. 資料治理的多方角色

資料治理生态系統包括兩個次元的角色:從資料客戶到資料提供者、從資料所有者到資料管理者。不同的角色可以由不同的業務實體擔任。是以,6G中的資料治理是典型的多方參與場景,使用6G系統提供的資料或知識的資料客戶、6G系統的資料提供者都可能參與其中。

6G可以有自己的資料治理架構,也可以在自身領域知識的基礎上,與其他行業參與者一起建構資料治理架構。也就是說,資料治理架構可能存在不同的演進或發展路線。是以,不同業務實體之間在營運階段如何确定資料權利非常重要,可以借助區塊鍊等去中心化技術解決這一問題。

3. 資料資源

資料資源的内容非常豐富,包括結構化資料、非結構化資料、預處理資料、後處理資料、原始資料。從無線環境中高效收集資料(如移動性等使用者行為資料和網絡狀态資料)是資料治理的前提。然後可以使用智能方法分析資料、将資料衍生的知識傳輸給内外部客戶。因而有必要了解資料的來源。

詳解華為6G系統的資料治理架構技術

▲圖3 主要資料源類别

圖3展示了6G系統中一些主要的資料源類别。

  • 基礎設施:基礎設施即通信系統,包括RAN、TN和CN等各類實體和虛拟資源,以及雲、邊緣和深度邊緣等計算資源。基礎設施内部産生的資料包括計算資源資訊、通信資源資訊(如某一網絡功能的狀态)、感覺資訊(如來自RAN的感覺資訊),以及某些使用者資訊(如移動性資訊、位置和相關上下文)。
  • 營運支撐系統(Operation Support System,OSS):這一層的資料包括所有OA&M相關的資料,如實體裝置狀态、系統運作資訊、業務發放資訊。
  • 業務支撐系統(Business Support System,BSS):這一層的資料包括所有與業務邏輯相關的資料,如客戶資訊、夥伴關系管理資訊。更重要的還有消費者和企業客戶的訂閱資料,對于這些資料,他們應擁有完全所有權和控制權。
  • 行業通信系統:6G行業應用場景中,收集的資料可能還包括行業相關OA&M資料資訊、行業使用者資訊(如流量規律和移動性資料)以及存儲在雲端的業務/服務資料。此類資料的所有權應完全屬于行業客戶。
  • 終端:來自終端側的資料包括計算和通信資源、業務使用概況、感覺知識等。此類資料的所有權應完全屬于終端使用者。

4. 資料搜集

6G中,資料治理的一個主要作用就是提供合适的方法建構資料資源,這需要合适的架構和網絡功能的支援,建構資料資源的第一步是收集資料,這一步有如下幾個關鍵動作:

  • 與資料源建立協定(如資料授權)和安全連接配接。
  • 接收資料收集需求,确定收集範圍,根據需求确定收集的地點、時間和方式。
  • 将資料屬性告知資料源。
  • 從資料源收集資料并入庫。
  • 對資料庫中的資料進行操作和維護。

5. 資料分析

在管理資料資源的基礎上,為不同類型客戶提供資料分析服務便成為可能。有如下四種資料分析服務可以提供:

  • 描述性分析挖掘曆史資料的統計資訊,提供網絡洞察資訊,如網絡性能、流量模型、信道狀況、使用者等方面。
  • 診斷性分析可以實作網絡故障和業務損傷自主檢測,識别網絡異常根因,進而提升網絡可靠性和安全性。
  • 預測性分析利用資料來預測未來事件,如流量模式、使用者位置、使用者行為和偏好、資源可用性,甚至是故障。
  • 建議性分析基于預測性分析為資源配置設定、内容展示等提供建議。

資料面提供的知識來自資料分析服務,提供的知識包括主動知識(如行動建議)和被動知識(如資訊共享和客戶的行動決定)。

資料分析服務可以基于客戶需要,并根據客戶需求定制。資料面應按需多元度開放服務和資料,表1列舉了可向客戶提供的服務類型的示例。可以預見的是,實際的客戶類型比表格中所列舉的更豐富,客戶對資料分析的需求和使用場景也各不相同。

▼表1 資料面提供的多元資料服務示例

詳解華為6G系統的資料治理架構技術

6. 資料脫敏

收集和儲存敏感資料,就涉及了隐私風險,需要承擔隐私保護責任。資料脫敏是回應隐私關切、實作法律遵從的重要動作,對于在6G設計中支援AI和感覺業務也尤為重要。

特别是對于AI任務,需要考慮跨領域的設計。近來有大量關于AI領域中差分隐私(differential privacy)的研究,探讨如何将單個裝置的訓練資料匿名化。

模型訓練和AI推理過程中的資料脫敏在6G設計中必不可少。實作差分隐私的方法包括:在不影響資料統計屬性的前提下為訓練資料加入噪聲,訓練模型仍然可以捕捉到原始資料集的特征;使用加密技術,使機器學習基于加密的(而非解密的)資料進行。還有一種方法是,讓裝置發送模型參數,而不是訓練資料,比如說聯邦學習和拆分學習。

在這一過程中存在一個風險,如果有完全掌握學習方法的内部人員心懷不軌,那麼他可以利用模型逐漸收斂的過程構造與訓練資料類似的資訊。例如在聯邦學習中,資訊可能是以被洩露給惡意裝置。

不論何種學習方法,資料脫敏都是需要考慮的問題。是以,我們需要在這個前提下,思考如何處理不同學習方法之間的差異和學習方法自身的局限性。

關于作者:童文 博士,華為無線CTO,華為5G首席科學家,華為Fellow,IEEE Fellow,加拿大工程院院士,曾獲IEEE通信學會傑出行業領袖獎、費森登獎章。

朱佩英 博士,華為無線研究領域進階副總裁,華為Fellow,IEEE Fellow,加拿大工程院院士。

本文摘編自《6G無線通信新征程:跨越人聯、物聯,邁向萬物智聯》,經出版方授權釋出。(ISBN:9787111688846)

繼續閱讀