天天看點

數智化時代合格資料架構師如何養成?雲計算基建大資料基建資料建構資料管理資料應用總結

文章将從雲計算基建、大資料基建、資料建構、資料管理、資料應用5個角度,闡述資料架構師的必備技能和素養。

雲計算基建

傳統的IT架構已存在幾十年,随着企業業務的快速發展,對于業務的可用性要求越來越高,對于成本的壓力也越來大。是否存在一種方式能以更低成本、更高性能和可用性的方式支援新時代的企業資訊化要求?

部分網際網路公司由于自身業務快速發展的原因,做了大量嘗試。阿裡巴巴率先發起的“去IOE運動”:将IBM機器替換成雲上伺服器,将ORACLE資料庫替換成雲上資料庫,将EMC存儲替換成雲上存儲伺服器。帶來的不僅僅是成本的降低,同時也提供了更加穩定、安全的環境。雲計算作為資訊時代的水、電、煤已成為行業共識。随着雲計算的興起,企業全面上雲的拐點已到。作為一名合格的資料架構師,對雲計算基礎設施需要有充分的了解。

  • 首先,相較于傳統的伺服器,架構師需要了解雲上是如何實作穩定、彈性、安全、成本、易用、擴充的雲上伺服器的。還包括如何實作實體資源的虛拟化,如何通過彈性伸縮從容面對業務的峰谷,如何通過多地域多可用區實作容災等。另外,資料架構師需要能評估伺服器所需資源類型,通過技術調研和論證,得出所需要的伺服器的資源,例如面對不同的業務和技術場景,企業需要的是緊湊型、通用型、均衡型、記憶體型、獨享型哪種類型的伺服器。
  • 其次,網絡同樣也是資料架構師必須掌握的基礎知識,如何設計安全的網絡機制、如何規劃合理的網絡配置、如何進行可靠的網絡連接配接(包括不同虛拟網絡之間以及與客戶本地IDC進行連接配接方式等),都是資料架構師在工作中會遇到的各種挑戰。
  • 最後,資料架構師需要了解各種雲上資料庫(包括關系型資料庫、NoSQL資料庫等)的應用場景、産品特性等。以及如何保障其可靠性,安全性、可用性、擴充性、成本。另外還有對象存儲産品的特性,如何對視訊、圖檔等資料進行有效的管理。如何通過CDN等手段提高使用者通路響應速度。

大資料基建

大資料借着雲計算的東風,也開始在資訊時代發揮越來越重要的地位。阿裡巴巴提出的資料中台概念和實踐,也在雲上落地開花。面對體量巨大、時效要求高、形式多樣化、價值密度低的企業大資料,對于資料架構師,需要在采集、計算、存儲等基礎技術的原理和應用場景形成自己的知識體系。

  • 首先,資料架構師需要了解業界通用的PC端和無線端采集、爬蟲采集等場景的具體方案。了解從埋點申請、可視化埋點實施、驗證、釋出到監控的全生命周期管理。
  • 其次,對于離線計算和實時計算的模式和原理,以及對應場景的離線計算和實時計算的産品都應該熟悉掌握,在洞察客戶需求後,能合理的做計算模式的選擇和判斷。
  • 最後,大資料在存儲上與業務系統在場景和目标上的本質差別,需要了解如HDFS的大資料存儲原理、MPP架構的原理和常用場景、消息中間件用于實時計算的方式等。

資料建構

資料架構師很重要的職責就是思考如何對資料做合理有效的建構,形成标準、統一、可公用、可了解的公共資料,讓業務能夠盡情在建設好的資料上馳騁沙場,利用資料創造出業務價值。

  • 首先,好的資料體系能夠對資料進行有效的橫向分層,合理的縱向分類。通過資料體系的建構,能夠讓資料生産者更合理高效的組織資料,資料消費者能更有效的了解和擷取所需資料,資料管理者能更高效的管理好資料。是以資料架構師需要能從全局上對資料體系有個整體上長遠的規劃。
  • 其次,資料需要能夠被更好的組織和使用還需要有合理的資料模組化方法論的支撐,例如基于次元模組化的資料建構方式能夠讓資料以事實表和次元表的方式的方式向上提供資料服務,并且預先通過基于分析對象的彙總資料能夠提供統一标準的業務名額定義。資料架構師需要有了解業務、抽象實體、形成模型的知識體系,并且在遇到問題時能從合理性、可擴充性、易用性、可了解性等各種角度給出模型設計的合了解決方案。
  • 最後,就算資料架構師不需要做代碼開發,可是這個能力是對資料架構師最基本的要求,隻有充分了解了資料加工的整個過程,才能基于資料的思維去設計好資料體系。在碰到項目開發同學遇到資料處理問題時,能夠及時提供有效的幫助,對于建立項目中的信任關系也起到了關鍵的作用。

資料管理

資料品質是資料能被信任的關鍵,也是資料中台建設能否成功的關鍵。是以資料架構師需要設計事前、事中和事後的資料品質檢測和處理機制,保證資料在完整性、準确性、及時性、一緻性上滿足業務的要求。

資料架構師還需要保證資料治理能夠形成有效的閉環,從發現治理問題、推送給責任人、引導治理動作、治理效果評估、到下一次進行新的治理問題發現,根本上杜絕資料“有人生、沒人養”的困局。就像環境治理一樣,隻有基于體系化的長效機制才能還我們綠水青山。

資料是一把雙刃劍,因為它在給業務帶來價值的同時,資料安全的問題是另一把可緻企業于死地的利劍。資料架構師要對資料安全規劃做在最前頭,從資料産生到消亡全生命周期進行安全制度和流程的規劃,同時需要通過如差分隐私、保序脫敏等各種技術手段保障資料安全。

資料隻有讓業務充分使用才能産生價值,是以首先資料架構師需要思考如何提高資料的易用性,包括從資料的業務視角組織形式、資料标準口徑的定義方式、基于中繼資料幫助業務了解資料等方式。再次,資料是有成本的,是以需要能夠更好的衡量資料帶來的價值,形成資料資産ROI,再配合相應的資料營運手段,才能讓資料資産化和價值化互相促進發展,相愛相生。

資料應用

資料架構師需要能夠讓資料更好的服務業務,但是應抛棄疲于奔命于各種跑數取數的深淵中,需要能跳出一個個單點的需求,能更全面的思考如何主動服務業務。

  • 首先,資料架構師需要有很強的業務了解能力,對客戶的業務能基于行業視角有清晰的了解,并且能基于了解做進一步的抽象,抽象出業務的本質。
  • 其次,資料架構師能從業務方的需求、對業務和資料的了解沉澱出一系列的分析思路。也需要能通過算法結合資料,思考如何進行資料的深度挖掘,挖掘出高價值資料。最終能将思路和方法通過産品化的方式沉澱,主動服務業務,與業務共創資料價值。
  • 最後,資料的本質是為了賦能商業、創造商業,是以資料架構師需要有一定的商業思維,能了解資料如何使商業更加智能,如何驅動商業的發展,如何創造新的商業形态。

總結

技術到業務,方法論到産品化,全局規劃到細節把控,資料架構師需要在大資料的方方面面都承擔起重要的作用。更重要的是,需要有對大資料行業未來的信心、對職業發展方向的恒心、對漫長落地過程的耐心、對賦能商業的熱心。

阿裡巴巴資料中台團隊,緻力于輸出阿裡雲資料智能的最佳實踐,助力每個企業建設自己的資料中台,進而共同實作新時代下的智能商業!

阿裡巴巴資料中台解決方案,核心産品:

  • Dataphin,以阿裡巴巴大資料核心方法論OneData為核心驅動,提供一站式資料建構與管理能力;
  • Quick BI,集阿裡巴巴資料分析經驗沉澱,提供一站式資料分析與展現能力;
  • Quick Audience,集阿裡巴巴消費者洞察及營銷經驗,提供一站式人群圈選、洞察及營銷投放能力,連接配接阿裡巴巴商業,實作使用者增長。