天天看點

“後紅海”時代,大資料體系到底是什麼?-下篇**03 大資料體系未來演進的4大技術趨勢**04 大資料體系内待探索的3個疑問

**03 大資料體系未來演進的4大技術趨勢

**

趨勢1:近實時架構興起

在離線batch計算和純流式實時計算之間,以開源Apache Delta/Hudi為代表的近實時架構成為熱點。近實時架構避免了流計算龐大的狀态存儲與管理,在成本和延遲上找到了另一個平衡。随近實時架構的形成,計算架構最終完成從離線到實時全頻譜支援。

趨勢2:資料共享與隐私保護成為熱點

資料成為資産,開始具備可變現和可交易的能力。可保護隐私的資料交換/共享能力成為強勁的需求。基于Differential Privacy的資料編碼交易,以及基于Federated Learning的多方面安全計算是該領域的熱點技術。

趨勢3:IoT成為新熱點

目前人的行為資料(日志)是大資料計算的主要來源,超過80%的資料都來源于行為日志(例如浏覽、點選)。随5G+智能化裝置的興起,裝置日志會成為更大的資料源增長點,面向海量低價值裝置資料的處理和優化,需要得到更多的關注。

趨勢4: AI for System

AI for System,即上文中提到的大資料自動駕駛。AI作為工具,成為優化的常用手段。在大資料領域,随資料量/系統複雜度的增長,DBA模式已經不再試用。利用算法優化系統成為主流方向,大資料的“自動駕駛”會越來越自動。

**04 大資料體系内待探索的3個疑問

大資料技術收斂,并進入普惠和業務大規模應用的階段,滲透到各行各業。超大規模資料計算和基于資料的智能決策,已經是企業業務資料化營運的重要基礎。不過,在後紅海時代,大資料體系發展有3個疑問值得我們關注:

疑問1:引擎發展呈現跨界的趨勢,但最終是否能夠誕生一套引擎滿足多樣的計算需求,并兼顧通用性和效率?

随大資料系統整體架構的穩定,各種引擎的發展逐漸進入收斂期,批計算、流計算、互動分析、機器學習收斂成為四個核心計算模式,每個模式均有主線開源引擎成為事實标準。

過去3年沒有再誕生主流的開源計算引擎(每個模式中,引擎的發展脈絡詳見第二章節)。同時,引擎邊界開始變得模糊,HTAP等Hybrid模式成為探索的新趨勢,計算模式是否進一步收斂,收斂的終态會是什麼樣子,是個熱點話題。

疑問2:關系模型之外,是否會發展出其他主流計算範式?

大資料領域整體還是以二維關系表達和計算為基礎(Relational DB的理論基礎),是否有新的計算範式在資料庫領域也持續讨論了多年,盡管有包括圖計算在内的其他計算範式,但過去的40年,關系運算持續成為主流。

其中核心原因,筆者個人的判斷是二維關系表達更貼近人的了解能力,或者說高維表達和處理很難被人了解和處理。但關系表達有顯著的短闆,它無法處理半結構化和非結構化的資料(比如音視圖類的資料)。

近幾年興起的深度學習技術,帶來了一種全新的處理方式,海量正交化的高維特征作為輸入,由深度神經網絡了解資料,以模型作為産出的引擎計算出結果。這種方式避免人腦對資料處理的局限性,可以在更高次元更複雜資料上做處理,給未來提供了一種新的處理方式的可能性。

但深度學習核心仍然在尋找“最好”的co-relation,可解釋性,推導邏輯以及對結果正确性保證都不夠好。

疑問3:基于開源自建與直接選購企業級産品,誰更能獲得使用者的認可?

開源軟體是大資料發展的關鍵推手,助力大資料系統的普及化。但面臨如下挑戰:開源系統的軟體傳遞模式,也給很多客戶帶來高維護成本。

以一個典型的腰部網際網路企業為例,一個100台規模的大資料平台硬體投入大約200萬/年,同時需要維持一個3-5人的研發/運維團隊,年成本200-300萬/年。綜合TCO高達450萬/年。

這也是為什麼像Snowflake這樣的自研企業級産品流行的原因,大多數不具備深度研發能力的公司,願意為更豐富的企業級能力和更低的綜合TCO買單;大資料系統開發進入深水區,投資巨大,需要高商業利潤才能支援。

事實上,雲計算四巨頭均有自己的自研産品提升利潤率的同時也提升差異化競争力(例如AWS Redshift,Google BigQuery,阿裡雲飛天MaxCompute)。

而每個開源社群背後無一例外均有商業公司推出企業版(例如Databricks之于Spark,VVP之于Flink、Elastic之于ElasticSearch)。

是以,長期看,大多數使用者(特别是中小型)進入“技術冷靜期”後,開始審慎考慮綜合投資收益,考慮上雲、以及直接采購企業級産品+服務(放棄自建平台)。

繼續閱讀