詳解華為6G系統的資料治理架構技術

老彭帶你讀書！

導讀：今天的數字化社會中，資料非常重要。未來6G系統将會産生、收集和交換大量的資料。各種營運管理任務，比如配置、性能監控、故障管理，都需要用到這些資料。這些資料還将作為知識經驗與其他系統和業務領域交流，産生更廣泛的價值。隻有通過這樣的交流，移動通信系統才能幫助垂直行業以及其他行業取得更大發展。

作者：童文、朱佩英

資料的使用範圍不同，資料治理本身不論是經濟内涵還是技術内涵也不同。資料治理是指通過相關流程和技術，對資料進行管理、維護和深度開發，獲得可以作為組織關鍵資産的高品質資料。

每個移動網絡營運商（Mobile Network Operator，MNO）将移動通信系統中産生的資料按技術域隔離并單獨存儲，這些技術域包括無線接入網（Radio Access Network，RAN）、核心網（Core Network，CN）、傳輸網（Transport Network，TN）以及運作、管理和維護（Operation, Administration, and Maintenance，OA&M）等。不同網元、不同參與者擁有的資料不夠公開透明，由此帶來的資料孤島是資料采集和共享中的主要瓶頸。

另一方面，大型OTT（Over-The-Top）業務公司在資料治理和變現政策方面（如資料存儲、分析服務、API接口）積累的專業知識遠遠領先于電信領域公司。

6G系統的資料治理方案将為AI和感覺業務提供有力支援，将催生新的業務方式和系統特性。

設計要點和原則

資料治理的範圍遠不止是傳統的資料采集與存儲。總體上，系統設計需要考慮四個方面，如圖1所示。

▲圖1 資料治理的設計要點

1. 資料可獲得性和品質

資料可獲得性和品質是AI能否在各行業中得到應用的最大挑戰之一。提高資料的可獲得性，意味着資料不能僅僅來自單個系統、單個領域，而需要同時來自多個系統的不同領域。這就提出了一個根本問題：如何打破（多廠商、多營運商、多行業之間的）實體邊界，讓資料進入異構資料海洋？

一旦收集并利用了原本分散且互相隔離的資料，另一個問題随之而來：如何提高資料的品質？海量資料的擷取，并不意味着擷取的資料是可用的、高品質的。同時，在考慮降低資料處理計算複雜度和能耗的同時，還需要提高資料處理效率。

2. 資料主權

随着社會的全數字化轉型，資料主權、資料安全和隐私的重要性空前突出，很多國家都制定了隐私保護的法律法規。服務提供商也在不斷更新它們的隐私保護方案，主要國家政府也正在制定或已釋出了資料管理相關的規定。

例如，歐盟2018年頒布的《通用資料保護條例》（General Data Protection Regulation，GDPR）就從歐盟層面上規範了資料的使用。2019年，中國頒布了《資料安全管理辦法》，與2016年頒布的《網絡安全法》一起構成了中國版的GDPR。美國也正在實施隐私相關的法律，例如加州的《消費者隐私保護法》（Consumer Privacy Act）已于2020年1月正式生效。

如何充分挖掘資料的内在價值，為各種業務提供精确支撐的同時兼顧隐私保護，尊重資料主權，已成為近年來的熱門話題。6G系統設計應當考慮到監管的不确定性，尤其是存在于不同地區之間的監管差異帶來的不确定性。

3. 知識管理

一般來說，知識可以看作是經過處理後的具有特定用途或價值的資料，可以被不同技術和業務領域的實體實體或虛拟實體直接使用。

知識管理包括知識的生成、更新和開放。就知識的生成和更新來說，我們需要仔細把關資料的來源和品質，采取措施攔截不可靠甚至是惡意的資料源産生的低品質和有害資料。而将知識作為一種能力對外開放，則需要适合的平台和接口設計。

4. 法律問題

各種各樣的傳感器和其他技術可以實時産生資料，這讓資料收集和使用越來越複雜和敏感。資料生成能力的提升不僅提供了新的資料流和内容類型，同時也引發了政策和法律對資料濫用的關注：别有用心的機構或政府可能利用這些能力達到社會控制的目的。

同時，新技術能力也讓普通人難以分辨技術内容的真假。比如，普通人就很難區分一段真實視訊和一段“深度僞造”（deep fake）的視訊。維

護技術的社會利益和防止技術能力被用于實施社會控制、剝奪自由之間存在一種脆弱的平衡，如何保護這一平衡，變得愈發重要。為了識别欺詐行為、防止先進技術被濫用，需要更嚴格的法律和政策手段。

架構特點

獨立的資料面是資料治理系統設計中的關鍵特性（如圖2所示），它将為6G系統提供資料相關的通用能力，進而為6G系統内部和外部功能提供透明、高效、内生安全和隐私保護。下文将介紹基本概念和相關網絡功能和業務。

▲圖2 獨立的資料面實作完整的資料治理

1. 獨立資料面

獨立資料面旨在實作6G系統的資料治理方案，它處理的資料來自不同業務實體。不論資料來自哪裡，資料的整個生命周期都在這一平面完成處理，包括資料生成與收集、資料處理與分析、資料業務發放。

是以，獨立的資料面可以為外部商業實體（如汽車、制造和醫療等垂直行業）提供資料服務，也可以為6G系統本身（如控制面、使用者面和管理面）提供網絡自動化和優化服務。網絡運作相關的配置、狀态、日志，以及使用者個人資料、傳感器資料、其他各方提供的資料都是收集的對象。

收集到的資料會形成豐富的資料資源，這些資料資源可以以分布式的形式被組織起來。為了防止直接将原始資料用于AI和感覺等應用而導緻的問題，原始資料在被使用之前通常需要預處理（如匿名化、資料格式再塑、去噪、轉換、特征提取等）。

為確定資料完整、過程合規，資料處理過程中所涉及的政策（如地理限制、國家或地區隐私法規等規定），不論是否來自監管層面，都預設需要遵守。将資料傳遞至資料面時，還需要遵守資料合同中約定的資料使用權利和義務。資料脫敏是保護隐私的關鍵，資料面需要提供這一服務。

上述由資料面提供的所有服務，都由自包含的OA&M系統來營運管理。

資料面的另一重要功能是基于資料收集、處理和編排生成知識。為了協調來自不同資料源的資料的處理和傳輸，知識的生産也需要按照合同要求進行。

随着新的資料源、資料模型、資料主題被資料客戶關注和使用，資料治理架構可以不斷演進、不斷充實。是以，資料治理架構的營運管理和架構的實時發展是可以并行的。

由于資料面是一個邏輯概念，是以可以通過集中式分層架構實作，也可以作為一種分布在邊緣或深度邊緣節點上的邏輯功能實作。接下來我們将探讨資料面的一些關鍵要素。

2. 資料治理的多方角色

資料治理生态系統包括兩個次元的角色：從資料客戶到資料提供者、從資料所有者到資料管理者。不同的角色可以由不同的業務實體擔任。是以，6G中的資料治理是典型的多方參與場景，使用6G系統提供的資料或知識的資料客戶、6G系統的資料提供者都可能參與其中。

6G可以有自己的資料治理架構，也可以在自身領域知識的基礎上，與其他行業參與者一起建構資料治理架構。也就是說，資料治理架構可能存在不同的演進或發展路線。是以，不同業務實體之間在營運階段如何确定資料權利非常重要，可以借助區塊鍊等去中心化技術解決這一問題。

3. 資料資源

資料資源的内容非常豐富，包括結構化資料、非結構化資料、預處理資料、後處理資料、原始資料。從無線環境中高效收集資料（如移動性等使用者行為資料和網絡狀态資料）是資料治理的前提。然後可以使用智能方法分析資料、将資料衍生的知識傳輸給内外部客戶。因而有必要了解資料的來源。

▲圖3 主要資料源類别

圖3展示了6G系統中一些主要的資料源類别。

基礎設施：基礎設施即通信系統，包括RAN、TN和CN等各類實體和虛拟資源，以及雲、邊緣和深度邊緣等計算資源。基礎設施内部産生的資料包括計算資源資訊、通信資源資訊（如某一網絡功能的狀态）、感覺資訊（如來自RAN的感覺資訊），以及某些使用者資訊（如移動性資訊、位置和相關上下文）。
營運支撐系統（Operation Support System，OSS）：這一層的資料包括所有OA&M相關的資料，如實體裝置狀态、系統運作資訊、業務發放資訊。
業務支撐系統（Business Support System，BSS）：這一層的資料包括所有與業務邏輯相關的資料，如客戶資訊、夥伴關系管理資訊。更重要的還有消費者和企業客戶的訂閱資料，對于這些資料，他們應擁有完全所有權和控制權。
行業通信系統：6G行業應用場景中，收集的資料可能還包括行業相關OA&M資料資訊、行業使用者資訊（如流量規律和移動性資料）以及存儲在雲端的業務/服務資料。此類資料的所有權應完全屬于行業客戶。
終端：來自終端側的資料包括計算和通信資源、業務使用概況、感覺知識等。此類資料的所有權應完全屬于終端使用者。

4. 資料搜集

6G中，資料治理的一個主要作用就是提供合适的方法建構資料資源，這需要合适的架構和網絡功能的支援，建構資料資源的第一步是收集資料，這一步有如下幾個關鍵動作：

與資料源建立協定（如資料授權）和安全連接配接。
接收資料收集需求，确定收集範圍，根據需求确定收集的地點、時間和方式。
将資料屬性告知資料源。
從資料源收集資料并入庫。
對資料庫中的資料進行操作和維護。

5. 資料分析

在管理資料資源的基礎上，為不同類型客戶提供資料分析服務便成為可能。有如下四種資料分析服務可以提供：

描述性分析挖掘曆史資料的統計資訊，提供網絡洞察資訊，如網絡性能、流量模型、信道狀況、使用者等方面。
診斷性分析可以實作網絡故障和業務損傷自主檢測，識别網絡異常根因，進而提升網絡可靠性和安全性。
預測性分析利用資料來預測未來事件，如流量模式、使用者位置、使用者行為和偏好、資源可用性，甚至是故障。
建議性分析基于預測性分析為資源配置設定、内容展示等提供建議。

資料面提供的知識來自資料分析服務，提供的知識包括主動知識（如行動建議）和被動知識（如資訊共享和客戶的行動決定）。

資料分析服務可以基于客戶需要，并根據客戶需求定制。資料面應按需多元度開放服務和資料，表1列舉了可向客戶提供的服務類型的示例。可以預見的是，實際的客戶類型比表格中所列舉的更豐富，客戶對資料分析的需求和使用場景也各不相同。

▼表1 資料面提供的多元資料服務示例

6. 資料脫敏

收集和儲存敏感資料，就涉及了隐私風險，需要承擔隐私保護責任。資料脫敏是回應隐私關切、實作法律遵從的重要動作，對于在6G設計中支援AI和感覺業務也尤為重要。

特别是對于AI任務，需要考慮跨領域的設計。近來有大量關于AI領域中差分隐私（differential privacy）的研究，探讨如何将單個裝置的訓練資料匿名化。

模型訓練和AI推理過程中的資料脫敏在6G設計中必不可少。實作差分隐私的方法包括：在不影響資料統計屬性的前提下為訓練資料加入噪聲，訓練模型仍然可以捕捉到原始資料集的特征；使用加密技術，使機器學習基于加密的（而非解密的）資料進行。還有一種方法是，讓裝置發送模型參數，而不是訓練資料，比如說聯邦學習和拆分學習。

在這一過程中存在一個風險，如果有完全掌握學習方法的内部人員心懷不軌，那麼他可以利用模型逐漸收斂的過程構造與訓練資料類似的資訊。例如在聯邦學習中，資訊可能是以被洩露給惡意裝置。

不論何種學習方法，資料脫敏都是需要考慮的問題。是以，我們需要在這個前提下，思考如何處理不同學習方法之間的差異和學習方法自身的局限性。

關于作者：童文博士，華為無線CTO，華為5G首席科學家，華為Fellow，IEEE Fellow，加拿大工程院院士，曾獲IEEE通信學會傑出行業領袖獎、費森登獎章。

朱佩英博士，華為無線研究領域進階副總裁，華為Fellow，IEEE Fellow，加拿大工程院院士。

本文摘編自《6G無線通信新征程：跨越人聯、物聯，邁向萬物智聯》，經出版方授權釋出。（ISBN：9787111688846）

詳解華為6G系統的資料治理架構技術

繼續閱讀

PAT (Advanced Level) Practise 1012 The Best Rank (25)

mysql5.7的sql優化

線程通信和程序通信差別（線程程序差別）

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

微信小程式前端解密擷取使用者資訊

Spring MVC 自學雜記（五） -- SpringMVC與前台的json資料互動

《MySQL技術内幕：InnoDB存儲引擎》筆記

擴容TIKV節點遇到的坑

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

PHP輔導代做程式設計：CS353 Database System

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

詳解STM32單片機的堆棧