天天看點

阿裡資料:2020七大資料技術領域趨勢展望

在“20年代”的第一年,2020年,每一個技術領域,也有自己的一個關鍵事件回顧或一個關鍵節點暢想。回望過去,在資料技術領域發生了許多有意義的标志性事件。全球資料量在2019達41ZB,2020年預估到50ZB,這是國際權威機構Statista的統計和預測,這個資料量可以說大得驚人,也對資料技術提出了更高的要求。

站在新的一個十年,阿裡資料各細分領域專家一起來共同回顧各個領域的過去、展望未來,圍繞資料生命周期,分别從資料的采集、建設、管理、計算到應用進行了未來資料技術趨勢的展望。

資料采集

小程式和IoT采集、采集端計算、采集法律法規建設将會是突破性變化

  • 采集端計算:在5G和IoT時代流量資料還将會爆炸式增長,未來如何在有限的伺服器&計算資源的情況下保障資料采集的正常運轉将會是一個核心問題。其中的一個探索方向将是端計算,通過将算法模型、資料壓縮、資料過濾、反作弊等部署在終端,進而顯著降低網絡和服務端以及計算叢集的壓力。
  • 大資料采集法律法規建設:可能需要從3個方面入手:1. 清晰規定可以采集和不可以采集的資料;2. 明确規定不可以使用的采集技術,以及每種采集技術合法使用的量化名額;3. 違法行為的追究範圍和标準。

資料建設與管理

基于模型的開發模式将成為主流,流批一體将從引擎層上升到平台層,資料處理的粒度會更加精細。

  • 基于模型的開發模式将成為主流:大資料開發的門檻進一步降低,使用者不在需要編寫複雜的SQL代碼,隻需要聚焦在資料模型的開發上。
  • 流批一體将從引擎層上升到平台層:流批一體不在局限于引擎層,而上在平台層有着實際的業務場景支援。
  • 資料處理的粒度會更加精細:資料處理從表粒度更新到字段粒度,極大的降低計算和存儲的成本。

資料挖掘

AI民主化、多模态資料、可解釋性AI與增強分析、5G、IOT與邊緣計算等方向将會是突破性變化

  • AI民主化:随着AutoML技術的發展,資料挖掘的每一個流程都在朝着自動化的方向演變,越來越多的崗位可以運用AI的能力,AI人才不足的問題将在5年之内得到緩解。
  • 多模态資料:未來10年多模态資料的統一挖掘和模組化以及互相之間的翻譯和轉換,将會是一個熱點并有可能取得更大的突破。在對話領域,直接基于語音信号進行語義了解和實體識别也在進行。衛星等另類資料價值将被進一步融合與挖掘。
  • 可解釋性AI與增強分析:可解釋性AI與增強分析的出現,将拉近資料科學與商業之間的距離,為業務提供更加透明、可靠的AI能力。
  • 5G、IOT與邊緣計算:中國的5G從2019年開始落地,2020年規模化。雖然目前5G核心應用較少,但伴随的IoT的同步發展,未來10年,将有更多端上資料可被采集和挖掘以及在端上進行邊緣計算。

資料計算

無論是流批融合還是TA融合方面,我們都将面臨更多的業務場景需求和挑戰,而在AI智能計算的自動化和普惠運用,雲、端計算融合等領域,也将迎來更多的實際業務落地場景。

BI

雲BI将成為市場主流模式;自助資料分析需求持續旺盛;新制造、新金融、新零售、中小企業将成為BI市場中的亮點;資料分析和資料治理、資料資産管理會有更多交集;海量資料處理秒級響應成為标配;AI和BI融合,BI将真正進入智能化時代;移動端、共享、嵌入內建越來越普遍。

  • 雲BI将成為市場主流模式:雲廠商+BI産品将代替傳統私有雲解決方案,成為市場主流模式。雲BI需要具有平台即服務和分析應用即服務的能力,可以同時在雲端和本地部署、使用和管理資料分析報告和資料分析應用。從目前的國際IT市場來看,雲端化确實是大勢所趨,并逐漸形成規模市場,但國内市場由于資料環境相對封閉,資料安全也有很多挑戰,導緻企業關鍵資料仍然大部分存在于私有部署的系統中,雲化的發展進度并不如國際市場,中國市場的雲BI發光點可能在于業務集中在SAAS雲平台系統中的中小型使用者,這個有待市場驗證。
  • 自助資料分析需求持續旺盛:資料分析的應用場景在不斷豐富和擴充,越來越多的業務人員需要通過資料分析來為自己的業務決策提供支撐,而企業需要通過自助資料分析解放IT人員的勞動力,降低企業成本。
  • 新制造、新金融、新零售、中小企業将成為BI市場中的亮點:從社會的發展趨勢來看,新制造、新金融、新零售的理念會迎來更大的普及,在這些行業“資料即能源”的理念逐漸成為業界的共識,用BI對資料進行分析、充分挖掘資料價值成為他們的标準配備。中小企業也會成為BI市場的新亮點,他們的應用場景主要集中在數字營銷領域,亟需通過資料分析挖掘潛在的商業價值,幫助自身完成業務決策。
  • 資料分析和資料治理、資料資産管理會有更多交集。:接下來的幾年将會有越來越多的大型企業實施統一的資料治理、資料資産管理項目,而資料分析是資料資産管理中的重要組成部分,兩者的融合會越來越多。中繼資料管理、主資料管理、資料标簽、多元資料分析等需要與BI深度內建,并在此基礎上建立相應的分析模型。
  • 海量資料處理秒級響應成為标配:傳統關系型資料庫無法滿足企業的資料發展需求,大資料逐漸成為企業标配,BI産品需要提供強大的資料計算處理引擎,能夠降低企業資料查詢等待時間成本,提高業務資料分析效率,并且要和企業自身的大資料平台做到無縫內建和對接。
  • AI和BI融合,BI将真正進入智能化時代:為滿足企業業務人員自助資料分析和自動挖掘的需求,BI産品需要在現有的資料可視化和資料分析的功能基礎上,增強資料自動挖掘能力,使用者能夠輕松使用平台内置的進階分析功能。
  • 移動端、共享、嵌入內建越來越普遍:随着ERP、OA、MES、HIS等常見業務系統的完善,企業少則數十套IT系統,多則上千套系統,新型自助BI需要能夠與多個系統同時融合,全面分析企業的業務資料。大資料BI平台不同使用者建立的分析頁面,可以友善地分享給其他成員。同時,在企業的分析使用者設計儀表闆時,可以複用儀表闆中的圖表、次元、名額等,支援使用者分享指定頁面進行給其他部門成員,便于互動溝通交流。為滿足企業人員實時辦公、互通資訊的需要。大資料BI平台還需要支援移動端上共享和檢視分析結果,支援在移動端對分析結果進行資料層級鑽取穿透、關聯等。

資料服務

資料服務領域會在四個領域有顯著變化:聯邦學習促流通,AutoML提效能,高性能線上資料通路,資料雲服務化。

  • 聯邦學習促流通:資料一直是制約智能服務發展的關鍵因素,随着聯邦學習的興起,這一問題将會得到有效改善;在保證資料安全的前提下,讓資料變為可普惠的能源,無論平行模式還是垂直模式,都有利于資料在不同企業、不同媒介中傳播,發揮資料差異性的效果提升。
  • AutoML提效能:資料智能将會逐漸走向大衆化,AutoML将逐漸進步,以達到普通的監督學習任務能夠通過可用的方式或尚未完全完善的方法,自信地進行算法選擇和超參數優化,AutoML将不再被視為機器學習工具箱的替代品,而是作為其中包含的另一種工具。
  • 高性能線上資料通路: 高性能線上分析訴求十分強烈,查詢近似和資料近似技術發展将至關重要。
  • 資料雲服務化:kubernetes 有大一統趨勢,無論機器學習還是資料應用開發,雲原生都是未來,資料服務Cloud Native 後,使得資料工程師聚焦在資料分析領域,植入關鍵資料邏輯,無需關注服務邏輯DevOps,同時機器學習訓練部署預測都可以Cloud Native 化,促進資源高效利用及平台無關性,無論AutoML和還是傳統資料服務都将徹底雲化。

資料安全

資料安全領域會在四個領域有顯著變化:監管合規依然是促進企業資料安全及個人隐私資料保護發展的最大驅動力;以資料為中心的資料安全體系将逐漸被認可;短期不會有一個技術系統可以解決所有的資料安全問題;資料安全的新技術、新模式不斷湧現,資料安全産業邊界呈現不斷拓展和融合的态勢。

  • 監管合規依然是促進企業資料安全及個人隐私資料保護發展的最大驅動力:專門的立法及行業标準也會陸續釋出,但資料開放利用與資料安全成為“一個硬币的兩面”,也是各國政策法律的焦點和難點。
  • 以資料為中心的資料安全體系将逐漸被認可:未來資料安全将成為企業的核心競争力之一而不是成本,即能者多勞,資料安全做的好,可以獲得更多的業務機會。
  • 短期不會有一個技術系統可以解決所有的資料安全問題,而是基于不同的場景下使用不同的技術來解決不同的安全問題:比如sgx和安全多方計算可以解決多方互不相信的資料融合的問題,端上的邊緣計算可以解決采集合規的風險,差分隐私可以解決部分個人隐私資料洩露的問題,基于智能算法可以解決資料流通過程中的風險識别和控制問題等。
  • 資料安全産業将迎來重大機遇:數字經濟時代的發展,強烈依賴以大資料為生産資料的挖掘和應用,在此過程中需要解決資料孤島問題,增加資料資源的商業價值和社會價值。
  • 資料權屬關系将更為複雜:資料保護需求全面爆發,資料安全的新技術、新模式不斷湧現,資料安全産業邊界呈現不斷拓展和融合的态勢。

本文來源:AliData微信公衆号

繼續閱讀