天天看點

被熱議的DataOps,到底是什麼?

被熱議的DataOps,到底是什麼?

近幾年,DevOps的火熱程度日漸高漲,同時湧現出了各種Ops,包括DevSecOps、GitOps、AIOps、NoOps、DataOps、MLOps、FeatureOps、ModelOps、FinOps等等。其中,對于企業來說,確定資料以高效和合規的方式使用,DataOps正變得至關重要。

什麼是DataOps?

DataOps是“資料操作”的縮寫,維基百科對 DataOps 的定義是:一種面向流程的自動化方法,由分析和資料團隊使用,旨在提高資料分析的品質并縮短資料分析的周期。DataOps 的這一定義會随着時間的推移而變化,但其關鍵目标非常明确:提高資料分析的品質并縮短資料分析的周期。

在 2018 年 Gartner 釋出的《資料管理技術成熟度曲線》報告中,DataOps 的概念被首次提出(圖 1)。該報告指出,DataOps雖然可以降低資料分析的門檻,但并不會使資料分析變成一項簡單的工作。與 DevOps 的落地一樣,實施成功的資料項目也需要做大量的工作,例如深入了解資料和業務的關系、樹立良好的資料使用規範和培養資料驅動的公司文化。當然,DataOps 将極大提高人們使用資料的效率并降低使用資料的門檻,公司可以更快、更早、更好地使用資料,且成本和風險更低。

被熱議的DataOps,到底是什麼?

為什麼要實施DataOps?

随着數字化轉型的普及和深入,企業生産、營銷、營運等各環節中的資料将普遍被采集,資料應用開發需求增長與資料使用者角色的複雜緻使企業資料開發、資料運維工作量以及資料應用傳遞協調難度大大增加。海量資料的爆發式增長給資料價值挖掘帶來了一系列的挑戰:

  • 資料孤島阻礙資料的共享與統一:由于企業數字化建設前期認知不足,對缺少整體的系統規劃,業務系統分散建設,不同部門資料标準缺乏統一的規範,導緻資料解析困難,成本升高。
  • 資料品質低各部門間資料協作困難:資料管理的技術支援不足,導緻資料問題發現與整改不及時,無法保證資料品質;資料全生命周期缺少閉環管理,資料管理人員與資料生産者或使用者之間的協同困難,資料應用效能低。
  • 單點自動化難以支撐整體效能提升:盡管企業在資料開發、資料治理等單個環節采購了相關的工具或平台,實作了局部的自動化,然而僅僅能解決表面問題,無法真正解決全局需求。難以建立覆寫所有業務的規範統一、內建互聯的資料基礎,從根本上消除資料孤島,實作企業資料內建整合、全面共享應用,提升企業大資料能力。

DataOps作為一種新興的資料管理方法,強調資料管理自動化,既能為資料工作者提供靈活的資料開發支援,同時也簡化了資料傳遞的周期,提升資料成産者與資料消費者的協同效率,成為企業數字化轉型快速釋放資料生産力的最佳方案。根據國際知名IT機構Gartner預測:“到2025年以DataOps實踐和工具為指導的資料工程團隊的工作效率将比不使用DataOps的團隊高10倍。”

DataOps 方法論

DataOps 方法涉及多個步驟,這些步驟負責簡化資料傳遞的設計、實施和管理,同時保持政策和程式受到檢查。這對于優化動态環境中的資料使用非常重要。

被熱議的DataOps,到底是什麼?

DataOps 流程從資料管道開始,它描述了通過項目内部不同階段的資料流。該項目從從各種來源提取資料開始,并在将資料轉換為供業務主管或經理使用的可視化表示時達到高潮。

整個資料管道由 DataOps 自動化和管理,是以可以根據 DevOps 中使用的 CI/CD 實踐将資料用于生産。DataOps自動化過程包括三個主要步驟。

  1. 沙盒:第一步被稱為沙盒,它涉及資料分析的第一次疊代。它是由資料管理團隊完成的,他們從資料中尋找可以從中獲得的價值。在這個階段,資料清理和後續步驟不是優先事項。
  2. 預生産:暫存步驟涉及清理分析的資料,然後是文檔和模組化。這些步驟被疊代重複以提高資料品質,最終疊代導緻驗證适合生産的模型。
  3. 生産:最後一步涉及在生産階段使用分析資料模型,進而為最終消費者提供有效和準确的資料。公司可以使用這些資料來制定業務決策并産生更高的投資回報率 (ROI)。

DataOps 的目标功能

DataOps 旨在縮短整個資料分析的周期。它的主要使用對象是資料應用開發人員,包括資料工程師和資料科學家。是以,從搭建基礎架構到使用資料應用的結果,通常需要實作以下功能。

  • 部署:包括基礎架構和應用程式。無論底層硬體基礎設施如何,配置新系統環境都應該快速而簡單。部署新應用程式應該花費幾秒而不是幾小時或幾天時間。
  • 運維:系統和應用程式的可擴充性、可用性、監控、恢複和可靠性。資料應用開發人員不必擔心運維,可以專注于業務邏輯。
  • 治理:資料的安全性、品質和完整性,包括審計和通路控制。所有資料都在一個支援多租戶的安全環境中以連貫和受控的方式進行管理。
  • 可用:使用者應該能夠選擇他們想要用于資料開發和分析的工具,随時拿到他們可用的資料,并根據需要輕松開發和運作資料分析應用。應将對不同分析、ML、AI 架構的支援整合到系統中。
  • 生産:通過排程和資料監控,可以輕松地将分析程式轉換為生産應用,建構從資料抽取到資料分析的生産級資料流水線,并且資料應該易于使用并由系統管理。

簡而言之,DataOps遵循類似于 DevOps 的方法:從編寫代碼到生産部署的路徑(包括排程和監控)應由同一個人完成,并遵循系統管理的标準。與提供許多标準 CI、部署、監控工具以實作快速傳遞的 DevOps 類似,通過标準化大量大資料元件,新手可以快速建立生産級的大資料應用并充分利用資料的價值。

DataOps 的主要技術

DataOps 的主要方法論仍處于快速發展階段。像 Facebook 和Twitter 這樣的公司通常會有專門的資料平台團隊(Data Platform Team)處理資料營運并實作資料項目。但是,它們的實作方式大多與公司現有的 Ops 基礎設施內建,因而不适用于其他公司。不過我們可以從它們的成功中學習經驗,并建立一個可以由每家公司輕松實施的通用大資料平台。要建構 DataOps 所需的通用平台,一般需要以下技術。

  • 雲架構:必須使用基于雲的基礎架構來支援資源管理、可擴充性和營運效率。
  • 容器:容器在 DevOps 的實作中至關重要,在資源隔離和提供一緻開發、測試、運維環境中的作用也至關重要。
  • 實時和流處理:目前來看,實時和流處理在資料驅動平台中變得越來越重要,它們應該是現代資料平台中的“一等公民”。
  • 多分析引擎:MapReduce 是傳統的分布式處理架構,但Spark 和 TensorFlow 等架構日常使用越來越廣泛,應該進行內建。
  • 內建的應用程式和資料管理:應用程式和資料管理(包括生命周期管理、排程、監控、日志記錄支援)對于生産資料平台至關重要。DevOps 的正常實踐可應用于應用程式管理,但是資料管理及應用程式與資料之間的互動需要很多額外的工作。
  • 多租戶和安全性:資料安全性可以說是資料項目中最重要的問題,如果資料無法得到保護,資料使用也就無從談起。該平台應為每個人提供一個安全的環境,使每個人都可以使用這些資料并對每個操作進行授權、驗證和稽核。
  • DevOps 工具:該平台應為資料科學家提供有效的工具,以分析資料并生成分析程式,為資料工程師提供大資料流水線的工具,并為其他人提供消費資料和結果的方法。

DataOps直播預熱

DataOps作為一種先進的面向資料管理和應用的方法論,自提出至今,逐漸被業界所認可。DataOps能服務于業務部門、大資料部門,提供敏泰資料開發支撐,優化資料生産者和資料消費者協作效率。

DataOps的理論和時間也經曆了持續的疊代有一系列問題值得探讨。作為企業資料開發管理環節中的重要理念,DataOps的範圍和應用場景有哪些?企業應當如何将DataOps這一理念進行落地,實作資料資産統一管理、滿足業務部門資料消費需求?DataOps最終能夠為企業創造什麼價值?适合什麼樣的企業?

為了探讨以上問題,本月UGeek大咖說将領域鎖定在DataOps,屆時會邀請行業内有影響力的專家做客直播間,總結分享DataOps落地的經驗和方案,敬請期待!