天天看點

資料架構現代化,Cloudera“混合資料”能夠成為定海神針嗎?

作者:濤哥說事

“現代資料架構,加速資料變現。”Cloudera大中華區區域副總裁王剛在近日于上海舉行的Cloudera Evolve上如此表示,“作為一家混合資料公司,Cloudera将積極擁抱混合資料未來。”

資料架構現代化,Cloudera“混合資料”能夠成為定海神針嗎?

Cloudera大中華區區域副總裁王剛

現代資料架構水到渠成

如果提到“肯睿”這個Cloudera的中文名字,可能很多人會感覺陌生,但是一說到Cloudera Data Platform (CDP)這個Cloudera公司的旗艦産品,大多數使用者都會發出一聲感慨,因為他們都曾受益于這一混合資料平台。

IDC的調研顯示,國内某金融機構早在2017年便采用了CDP,但是目前,其大資料建設進度隻有30%~40%。從中國行業使用者的普遍現狀來看,雖然很多企業在建構數倉并做了大量可視化的工作,但是在智能化、數字化方面仍缺少統一規劃,進展不如想象中那樣快。從整體需求層面來看,中國行業使用者迫切需要打造一個安全穩定的現代化資料平台,并且希望利用資料智能來創造新的價值,重塑競争力。

在業務驅動、大資料處理愈加複雜、多雲部署成為主流的背景下,行業使用者對大資料平台提出了更高的要求。随着數字化轉型逐漸深入,IT基礎架構的現代化、應用的現代化都被提上了日程,這其中資料架構的現代化也是不可或缺的一環。Cloudera正是為有效應對現代資料架構的挑戰,才不斷強化其CDP。

資料架構現代化,Cloudera“混合資料”能夠成為定海神針嗎?

Cloudera大中華區技術總監劉隸放

Cloudera大中華區技術總監劉隸放表示,Cloudera混合資料平台能夠更好地支援現代資料架構。在這一平台架構中,由下往上,最底層的混合雲和多雲的基礎架構,能夠保證跨所有環境的一緻體驗;其上,資料編織(Data Fabric)和編排(Orchestration)層,能夠以自助服務的方式智能、安全地動态編排不同的資料源,利用資料平台提供內建的可信資料,支援各種應用程式、分析和其他工作負載;再往上,湖倉一體與多功能分析,具有內建和統一資料倉庫及資料湖的功能,旨在支援同一資料集上的AI、BI、ML和資料工程;最上一層,資料網格與資料應用,基于面向域的分布式資料産品,使用通用資料基礎設施作為平台來托管、準備和服務其資料資産。

資料架構現代化,Cloudera“混合資料”能夠成為定海神針嗎?

“我們始終在強調,我們是一家混合資料架構公司,既可以支援私有化的部署,也可以在公有雲上支援混合資料。這是由客戶需求決定的。從本地到雲再到邊緣,使用者會根據業務發展以及安全合規營運的要求,在混合雲的環境中最優化地存儲資料、調用資料、使用資料,在滿足資料安全性的前提下,最大程度地追求降本增效。是以,我們不遺餘力地在自己的平台上支援使用者的混合資料應用。”劉隸放如是說。

IDC分析師指出,為滿足資料架構現代化的需要,行業使用者有必要在混合雲、資料編排和湖倉一體上下更多功夫。如今,多雲、混合雲已經是架構轉型的必然趨勢。過去,企業已經建了一些大資料平台和系統,現在則要對這些平台和系統中的海量複雜資料進行分析,實作智能化的洞察,而湖倉一體化的架構可以讓這項工作事半功倍。另外,像實時資料、流資料的處理,以及互動式分析,都對資料架構提出了更高的要求,研究、部署和應用現代資料架構成了目前一項非常緊迫的任務。

上汽大衆2017年開始引入Cloudera的CDH,2018建構了資料湖,2022年用6個月的時間更新到CDP,它也是國内汽車行業率先實作更新的。更新到CDP後,上汽大衆的批量作業性能平均提升2.5倍,其中最高提升達6.6倍。據王剛介紹,已有83%的中國客戶完成或部分完成了向CDP的更新。2023年,Cloudera希望這一比例超過90%。

2023,有的放矢

作為一家混合資料公司,Cloudera緻力于為千行百業的客戶提供滿足資料編織、湖倉一體、資料網格和未來資料生态系統架構要求的混合資料平台,使得客戶能夠在多個公有雲、私有雲以及本地,通路和分析資料,進而做出由資料驅動的明智決策,走向由資料驅動的未來。

資料架構現代化,Cloudera“混合資料”能夠成為定海神針嗎?

為了實作上述目标,2023年,Cloudera将主要做好以下三項工作。

重點推動PVC DS私有雲資料服務。新應用内置工作負載隔離,價值實作時間提高10倍,而資料中心基礎設施卻減少約一半。今天,大資料走向雲原生已經是大勢所趨。Cloudera一直積極踐行雲原生,并可以基于Kubernetes對外提供資料加工、資料倉庫、機器學習等服務元件,同時提供統一的權限管理,并確定應用上的絕對隔離,以滿足安全性的要求。國内已經有使用者采用Cloudera雲原生的資料服務,用于支援機器學習、數倉等應用。“對雲原生的資料服務提供支援是必然選擇,而且不僅要在公有雲環境下提供很好的支援,更要應用于私有雲環境中。”劉隸放如是說。

更好地支援Iceberg版本(公有雲的版本已經推出,私有雲的版本馬上釋出),實作對開放的湖倉一體架構的支撐,最終在單一平台上支援AI、BI、ML和資料工程等,同時與安全性完美結合。劉隸放表示:“未來,湖倉一體化還有很長的一段路要走,需要廠商、社群共同進行大量持續的投入。”

對象存儲元件Ozone值得期待。有了Ozone的支援,CDP能夠更好地支援更多小檔案以及更大資料量的存儲,并且可以支援雲原生。

另外,在動态資料的處理上,Cloudera也在推陳出新。以前,使用者的資料大多是靜态的。但是現在,比如在工業領域,傳感器資料就是動态資料。為了更好地應對資料分發與實時流處理,Cloudera推出了針對Data-in-Motion動态資料的三個元件:DataFlow,通過Apache NiFi允許開發人員連接配接任何地點、資料源與結構類型的資料,進行加工處理後,傳遞到任意地方;Stream Processing,通過Apache Flink & Kafka提供完整的企業級資料流管理,并借助标準界面,使得開發人員、資料分析師、資料科學家能夠輕松地建構實時混合雲應用;Cloudera SDX,通過Apache Ranger & Apache Atlas,使得資料流安全可控,并且得到有效的監控與治理。

“如果企業的總裁早上睜開眼的第一件事就是要看到報表和分析結果,那麼這樣的企業通常會是我們的優質客戶。”劉隸放表示,“很多企業之前可能已經在開源的元件上做了一些大資料方面的有益嘗試,當他們真正想向生産系統移植時,出于企業級特性、安全合規等方面的考慮,他們最終會找到Cloudera。我們提供标準化的7×24小時專業服務,能夠滿足企業級客戶對功能特性、安全合規、混合多雲等多方面的需求。”

繼續閱讀