天天看點

解鎖企業資料管理的利器——DataOps

作者:數造萬象

AIGC風暴席卷全球,行業即将大變天?衆所周知AI的三大基礎是資料、算力和算法。而資料好比是AI算法的“飼料”,想要把AI算法養大養肥,資料管理對于企業而言顯得越發重要!

2019年,黨的十九屆四中全會首次将“資料”增列為一種生産要素,資料要素所引發的生産要素變革,正在重塑企業的生産方式和商業模式。2023年,十四屆全國人大一次會議提出組建國家資料局,負責協調推進資料基礎制度建設,統籌資料資源整合共享和開發利用,統籌推進數字中國、數字經濟、數字社會規劃和建設等。

在數字經濟時代,企業逐漸發展成為一個數字型企業,對資料品質水準和資料生産效率提出了更高要求。DataOps通過引入靈活傳遞、智能治理、資源營運的理念與方法,指導企業建立企業級的資料管理,加快資料開發流程,提升資料應用效率,建構資料資産價值閉環。

解鎖企業資料管理的利器——DataOps

01 關于DataOps的發展曆程

DataOps 強調資料團隊的靈活協作和持續提升。2014年 Lenny Liebmann首次提出 DataOps 的概念,他認為 DataOps 是優化資料科學和營運團隊之間協作的一系列實踐集。

2018 年,Gartner 将 DataOps 列入了 Data Management( 資料管理) 的技術成熟度曲線,Gartner 認為 DataOps 是一種協作資料管理實踐,專注于改善整個組織中資料管理者和資料消費者之間資料流的通信、內建和自動化。

2021年,中國資訊通信研究院在《大資料白皮書( 2021) 》中将 DataOps 定義為資料管理的更新,強調建構從資料生産端到資料消費端的資料流,實作靜态資料管理與動态資料流的融合,而這一融合過 程通過“開發治理一體化”實作。

2022年,中國信通院釋出了《資料研發營運一體化(DataOps)能力模型》,定義了DataOps能力标準架構與研發管理的标準編制,為企業進行DataOps能力建設提供指導和參考依據,為DataOps能力建設及營運的成果提供評估模型和評價方法。

解鎖企業資料管理的利器——DataOps

DataOps是對DevOps在資料領域的延伸。DevOps是 IT 領域的概念,強調 IT 建設和軟體開發的靈活性、協作性,并通過建構軟體開發的價值流、提高軟體開發的自動化水準實作。DataOps 借鑒了 DevOps 理念中靈活快速、持續內建的關鍵點,強調通過調整文化、流程和使用的工具,在安全合規的前提下,快速提升業務價值,同時将持續疊代資料架構,不斷強化組織的資料思維。DataOps 還鼓勵業務線利益相關者與資料工程、資料科學和分析團隊協作,以努力減少 IT 營運和軟體開發團隊之間的孤島。這確定可以以最具适應性和最有效的方式利用組織的資料,為業務營運提供理想的結果。

02 DataOps與DevOps的差別

DevOps将開發和營運相結合,通過整合人、流程和技術,實作應用程式規劃、開發、傳遞和營運的協調和協作。DevOpsevOps隻關注了自動化部分,讓軟體工程師更有效率的工作,如強調自動化、标準化和流程優化。DevOps的過程主要包括需求管理、資料開發、自動化建構、自動化測試、自動化部署、持續內建與持續傳遞、服務運維等活動。但随着資料多樣性和複雜性的增加,涉及到測試和管理一些跨環境的資料時,這些不斷變化的資料将對資料的運用和管理帶來一系列的挑戰,随着業務的發展,資料分析所需要的技能和涉及的人員越來越多,DevOps在對快速疊代的業務上顯得越來越乏力。

解鎖企業資料管理的利器——DataOps

而DataOps是一種将靈活軟體工程方法與資料處理和分析結合起來的最佳實踐、流程和技術,DataOps更全面地審視我們如何傳遞資料産品,特别是在擷取業務成果方面。通過采用自動化、标準化和流程優化等手段幫助企業快速發現和利用資料洞察,進而增強業務競争力。

與DevOps不同的是,DataOps的運作過程是通過編排工具進行串聯和整合,形成一個閉環、可疊代的資料處理流程,包括了資料采集、資料預處理、資料存儲、資料分析、資料傳遞、資料運維、資料治理等活動。通過不斷優化和改進DataOps流程,為軟體工程師到資料分析師、業務營運人員和資料科學家等提供多樣化的工具和方法,來支援這些資料消費者的使用。為業務實作加快資料分析的速度,縮短資料處理時間,提高資料的品質和可靠性。

03 DataOps與傳統資料工程的差別

DataOps與傳統資料工程相比,更強調整個資料生命周期的自動化、靈活和安全性,以及所有涉及方的協作和持續改進。DataOps是一種面向“完整資料生命周期”的方法,它将整個流程都視為一個系統。DataOps強調從資料的建構、部署到維護的自動化和标準化,采用靈活方法和DevOps工具,以實作更快、更高品質和更安全地傳遞資料和分析。DataOps還注重資料治理、安全和合規性等問題,通過持續內建和持續傳遞,確定資料流程的品質和穩定性,并在業務需求變化時快速響應和調整。

而傳統資料工程主要關注建構和維護資料管道和資料基礎設施。這些資料架構和基礎設施通常是由獨立的開發和運維團隊建構和管理的。資料工程師使用一系列工具和技術來設計和實作資料管道,如ETL工具、程式設計語言、資料庫等等。然而,這種割裂的運作方式會導緻資料流程中的延遲和錯誤,也難以滿足快速變化的資料需求。此外,傳統資料工程往往無法滿足資料安全和合規性問題。

04 DataOps是如何運作的?

DataOps定義了資料管理的新模式,把資料管道,資料技術、資料處理流程和團隊有效結合起來。韋恩.埃克森提出的一個DataOps的架構圖,中間這裡指的是一個典型的資料管道,表示從資料來源到資料分析的全管道過程,下面是資料管道用到的相關技術,上面是整個資料管道的處理流程,包含持續內建、持續部署、編排和測試、監控等流程。通過管道編排能力,資料技術實作能力和資料任務持續內建持續部署能力,實作資料分析任務的多角色協作和靈活傳遞。總的而言,DataOps是将DevOps的靈活開發和持續內建應用到資料領域,優化和改進資料管理和資料消費者的協作,持續傳遞的資料生産線。

解鎖企業資料管理的利器——DataOps

05 DataOps對企業有哪些價值?

01、提高資料生産效率

DataOps通過優化資料生産流程、自動化測試和部署等手段,加快了資料處理和分析的速度,提高了資料生産效率。

02、增強資料品質

DataOps強調資料的品質和一緻性,通過資料管理、資料驗證和監控等手段,保證資料品質和可靠性,提高資料價值。

03、促進資料團隊合作

DataOps倡導跨部門合作和協作,促進了資料團隊的協同工作和知識共享,提高了團隊的生産效率和工作品質。

04、降低IT成本

DataOps通過自動化和标準化的方式,減少了手動幹預和重複工作,降低了IT營運和維護的成本。

05、實作業務創新

DataOps能夠提供高效的資料處理和分析能力,促進業務創新和數字化轉型,為企業帶來新的商業機會和增長點。

DataOps作為一種新興的資料營運方法論,旨在通過持續內建、持續部署和持續監控等手段,實作資料工作流程的自動化和優化。DataOps的出現,為企業在資料領域的數字化轉型提供了新的思路和方法,不僅可以加速資料的傳遞和創新,還可以提高資料的品質和可靠性。

在實踐中,DataOps可以幫助企業有效地應對資料研發和安全性等挑戰,同時也可以促進資料團隊和業務團隊之間的協作和溝通。總之,DataOps的發展和應用将會對企業的資料治理和資料價值實作産生積極的影響。

繼續閱讀