網絡資料中心正在不斷向人工智能(AI)時代演進,在Gartner釋出的《2017資料中心網絡魔力象限報告》中,将分析和基于意圖的網絡(Analytics and Intent-Based Networking)是八大市場趨勢之一,騰訊雲推出Suermind 智能網絡,以大資料為基石,提供網絡資料分布式采集、存儲、分析中心,将網絡拓撲管理、故障定位,故障自愈,網絡安全等應用與深度學習、人工智能等前沿技術結合,輕松應對百萬級裝置的網絡高效運維,釋放AI強大原力。
超大規模的網絡資料采集、存儲和實時計算已成為網絡運維的極大挑戰,騰訊雲上網絡線路幾萬條,拓撲複雜,但又需要滿足多租戶海量應用低延遲時間、高吞吐的要求,使用人工評估加傳統的路徑規劃算法的方式已無法根據鍊路負載的給出實時流量排程、鍊路擴容方案。如何實作超大規模網絡運維的智能化?騰訊雲利用基于Hadoop體系的MapReduce、HIVE、PIG、SPARK等大資料套件對海量鍊路的資料抽取、轉換、加載、模組化、分析、報表呈現,強大資料分析與探索挖掘能力,讓騰訊雲可快速對PB級規模下的網絡資料進行可視化的資料分析探索,實時掌控鍊路負載。為了滿足全網資源的充分利用,進行服務分級,利用人工智能算法進行鍊路排程,最近鍊路保證時延敏感業務,帶寬充足鍊路保證大帶寬應用,剩餘帶寬保證海量應用的傳輸。最終,騰訊雲supermind智能網絡在路徑規劃、容量規劃、流量排程的攻堅和創新,均回報到了卓越的網絡服務品質上。
在監控和故障定位方面,騰訊雲提供全時全流的網絡監控及告警收斂能力,可建構全維立體監控,秒級定位故障等難題,這是一項基礎能力,卻極具挑戰。
網絡拓撲層次多,差異大。不同于傳統資料中心,雲廠商内部在實體網絡上還存在一層虛拟化網絡,在虛拟化網絡中每個租戶又存在多個私有網絡,網絡層級多。雲廠商外部各路營運商的公網接入和不同客戶多地域差異化的鍊路接入,使得網絡結構差異極大。
網絡架構頻繁動态變更。雲上的虛拟化,熱遷移,彈性伸縮,SDN給租戶帶來了便利同時給網絡運維帶來了巨大的挑戰,如租戶雲上資源的熱遷移和彈性伸縮時,其網絡也需随之動态變化,網絡運維系統需監控。
規模和複雜程度呈指數級增長。多租戶的環境讓網絡拓撲的複雜性随着租戶及其規模呈爆炸性增長。
網絡品質的生命線,雖然面對網絡拓撲層次多,差異大,架構頻繁動态變更,規模和複雜性成指數級增長的挑戰,騰訊雲必須保證監控資料是全覆寫、多元、實時的。監控的全覆寫展現在:Underlay資料采集包括多廠商不同型号的實體機、專線、交換機等裝置的監控,Overlay的資料包括客戶在雲上的雲主機、資料庫、網關、負載均衡等全線産品的監控。外網監控包含營運商網絡監控和混合雲鍊路接入等。監控的多元展現在:各項關鍵名額、事件、網絡流日志、海量使用者記錄檔等的采集。監控的實時性表現在:90%以上的名額是1min展示時延,部分名額呈現時延是秒級甚至毫秒級。
全覆寫、多元、實時采集必然會造成資料大爆炸,大資料處理對騰訊雲網絡運維來說僅是基本功,騰訊雲這身基本功,是依托15年的網絡營運經驗精打細磨出來的。但多層,大差異,超大規模的網絡資料監控産生了大量告警,運維難以判斷事件影響範圍及其關聯性,就無法決策下一步的操作。為了解決該問題,騰訊雲将人工智能和網絡運維結合,通過聚類算法、關聯挖掘算法,多層異常告警收斂算法對監控資料多元度對比分析,實作了告警分級,聚類,影響範圍預判,将告警收斂,在降低誤報率的同時,提高了精準性,有效地提升了運維效率。
随着用雲量和計算量成指數級增長,騰訊雲面臨的是海量的運維資料和極其複雜的雲上網絡運維場景,機器學習算法與雲端網絡運維業務整合是必然趨勢。騰訊雲的資料接入層通過開放的接口,可平滑接入名額、事件、流日志、流量鏡像、記錄檔等多元資料。利用大資料套件的強大資料分析與探索挖掘能力,讓騰訊雲可快速對租戶PB級規模下的大資料進行可視化的資料分析探索,在紛繁複雜的運維資料中快速擷取洞察力,通過人工智能對異常捕捉、故障判斷、修複操作等依靠人力決策的環節進行持續學習和自動化響應,如:内網故障時,可自動化執行彈性伸縮,帶寬 保障,路由切換等自愈操作,外網異常故障時,可執行流量清洗,服務降級,DNS流量調動等自愈操作。故障自愈可以輔助運維快速決策,如自動降級政策,比起通過拍腦袋設定,到不如通過實際的故障資料來進行微調。但複雜的業務場景,有些政策是機器無法決策的,人工智能模型可在圖像識别中存在一定誤差,但這在網絡中是不允許的,決策失誤,可能導緻鍊路癱瘓,影響多家客戶。是以,騰訊雲将人工智能與故障自愈結合,主要是自主解決簡單的問題,輔助人類專家分析解決複雜網絡問題。
安全對抗是一場技術賽跑,利用AI的不法分子可以使用智能系統掃描,大資料資訊拉取、人物畫像描繪、基于畫像的詐騙對話、智能密碼破解、系統性DDOS攻擊、模拟人臉、指紋、聲紋擷取利益,應對如此嚴峻的安全形勢,騰訊雲推出AI和大資料為驅動力,以雲為平台和管道建構新一代智能安全防禦體系,包括利用大規模圖挖掘與機器學習追蹤惡意團夥;通過人群畫像與DNA模組化,應對羊毛黨與欺詐;整合多元度資料和威脅情報資訊,通過機器學習,建立更加積極主動的态勢感覺系統。騰訊雲AI安全能力矩陣圖,以大資料、機器學習、圖計算、知識庫等目前熱門AI技術為核心,驅動社交圖譜分析、圖像自動識别、知識表達推理、自然語言處理 4 大能力組合,形成智能身份鑒定、威脅情報分析、異常流量檢測、網絡攻擊溯源、人機行為識别、惡意圖檔識别、垃圾文本檢測等 7 項技術應用。
“網絡大腦”的智力高低正成為制約網絡規模和複雜度可持續發展的關鍵因素,騰訊雲網絡團隊也将始終保持着對人工智能新能力新技術的敏銳探索,将網絡系統的設計、管理、營運、優化、安全進行智能更新,讓人工智能來幫助網絡工程師,更好地管理日益複雜和龐大的雲計算網絡。