天天看點

探秘采雲間:全鍊路資料處理工具直擊傳統DW/BI痛點

本文來自《程式員》與阿裡雲聯合出品的《淩雲》雜志。

作者:周衛林

    近幾年來,各行各業的資料增長趨勢都非常明顯,大資料不再是少數大企業的專屬研究領域。如何在資料金礦中挖掘出寶藏、如何做好數字化營運,成為各類企業共同關注的話題。針對企業日益迫切的資料化營運需求,阿裡雲odps(open data processing service,開放資料處理服務)在2014年1月對外開放公測,旨在推動大資料分析處理“平民化”。為了豐富odps的周邊生态,降低使用者的接入成本,提高實施效率,尤其是彌補傳統dw/bi工具的缺陷,基于多年建設内部資料工作平台的經驗,我們搭建了一套解決方案,稱為采雲間(data process center,簡稱dpc),取“采集雲間資料”之意。采雲間于2014年7月24日在阿裡雲官網上線,通過快速疊代數個版本,目前的v1.2版本已經可以較為完整地支援etl工程師和資料分析師的工作。

     dw/bi軟體行業已有30多年的發展曆史,oracle、ibm、sap等多家傳統廠商,通過自研和收購的方式,形成了自己的dw/bi産品解決方案,并在金融、電信等傳統行業中得到廣泛的應用。然而,傳統的etl和bi工具,通常存在着以下問題。

     ■ license昂貴,初始軟體投入費用高。

     ■ 學習成本大,需要1-2周的專業教育訓練才能上手,後續咨詢服務費用高。

     ■ 需要二次開發,後期擴充難,普遍不支援分布式資料存儲與計算平台,例如hadoop。

     與傳統工具相比,采雲間在産品形态上有比較大的差別。

     ■ saas化,所有産品都在雲端部署,不需要本地安裝。

     ■ 提供統一的資料工作台,通過應用中心可以接入第三方提供的服務,形成豐富的大資料工具解決方案。

     ■ 多數産品都是圖形化操作界面,比如簡單拖拽即可完成資料分析和報表制作。

     目前,采雲間内部內建了ali data developer package(資料開發者套件)和 ali business intelligence package(商業智能套件),提供的資料處理工具,包括odps ide、資料同步、任務排程、資料分析、報表制作等。其産品功能示意參見圖1,其産品功能清單參見圖2。使用者通過采雲間應用中心可以檢視到具體的産品清單,見圖3。

探秘采雲間:全鍊路資料處理工具直擊傳統DW/BI痛點
探秘采雲間:全鍊路資料處理工具直擊傳統DW/BI痛點
探秘采雲間:全鍊路資料處理工具直擊傳統DW/BI痛點

     應用示範

     下面以完成一個簡單的業務報表的統計分析作為需求,來示範采雲間的主要功能,并詳細介紹采雲間的産品實作。要完成一個業務報表的統計分析,主要涉及幾個步驟:

     ■ 同步rds(relational database service,關系型資料庫服務)資料庫中的資料到odps上;

     ■ 使用資料工廠執行odps sql;

     ■ 通過“資料分析”進行線上可視化資料分析。

     如何同步rds資料庫中的資料到odps上

     采雲間内置了資料同步和流轉功能,完成rds與odps之間的雙向同步隻需在采雲間配置中心建立rds和odps的連接配接資訊即可。當配置rds連結資訊時,建議該賬号隻開通表的查詢權限。對于這些使用者名和密碼,采雲間會調用阿裡雲公有的加密服務進行加密儲存。

     步驟1:進入rds控制台,點選執行個體名稱,進入rds管理頁面擷取執行個體id。

     步驟2:在采雲間配置中心,點選“建立連接配接配置”,填寫rds執行個體的使用者名和密碼,儲存配置。同理,可以完成odps連結資訊的配置。

     完成上述操作之後,通過資料工廠(該工具的使用,參見“如何使用資料工廠執行odps sql”)建立需要同步的表的結構,然後在任務管理裡通過建立“同步任務”的方式,配置資料同步任務,确定送出之後,就可以每天自動進行資料同步了。

     重複上述的操作,可以配置多個同步任務,完成每天從生産庫裡将表中的資料同步到離線分析環境odps中,為後續的資料清洗轉換作準備。

     如何使用資料工廠執行odps sql

     資料工廠是odps的內建開發環境(ide),提供了類似pl/sql developer的功能。使用它,可以完成如下工作:編寫和管理你的代碼;檢視和管理表;建立任務;上傳本地檔案。

     在采雲間控制台上第一次登入資料工廠時,需要輸入odps的project名稱和對應的access key id和access key secret。點選登入界面的“立即檢視access key”,跳轉到如圖4中的頁面,找到啟用的access key id和access key secret,複制并粘貼。

探秘采雲間:全鍊路資料處理工具直擊傳統DW/BI痛點

     進入資料工廠,點選“建立sql檔案”,輸入sql語句,點選“執行”按鈕,即可完成一個簡單的查詢,執行日志和查詢結果會顯示在下方(圖5)。

探秘采雲間:全鍊路資料處理工具直擊傳統DW/BI痛點

     通常我們會依據業務統計需求,對生産庫裡同步過來的多個表,進行資料關聯處理,生成結果表。這個結果表就是後續進行資料可視化分析的源材料。

     如何通過“資料分析”進行線上可視化資料分析

     首先,需要從odps上導入中繼資料資訊,形成資料分析的資料集。如圖6所示,完成odps的連結資訊設定;選擇需要分析的表,點選導入,形成分析資料集。

探秘采雲間:全鍊路資料處理工具直擊傳統DW/BI痛點

     其次,從導入的資料集中,選擇一個打開,就可以開始進行資料分析了。整個分析過程的體驗非常像在excle裡做透視分析,可以大大降低學習成本,如圖7所示。

探秘采雲間:全鍊路資料處理工具直擊傳統DW/BI痛點

     架構解讀

     通過上述介紹,相信大家已經從産品角度對采雲間有了一定認知。下面将從技術角度對采雲間的架構做一個簡單的解讀。

     ■ 資料源支援:依托阿裡雲的飛天平台,采雲間可以将odps作為dw的存儲和計算引擎,并根據資料規模自動調整叢集的存儲和計算能力;采雲間的資料分析和報表制作工具既可以支援odps資料源,也可以接入ads和rds作為資料源,并提供了各個資料源之間切換的功能,使用者可以依據資料量、場景特點,選擇合适的資料庫。這三個産品在采雲間資料分析場景下的選擇依據如下。

探秘采雲間:全鍊路資料處理工具直擊傳統DW/BI痛點

     ■ web架構:使用者通過浏覽器可以通路采雲間的所有産品功能。采雲間本身由多個系統組成,每個系統(無論是前端web伺服器,還是後端執行引擎)都可以通過增加叢集的機器數量,實作服務能力的水準擴充。并可以通過admin控制台對叢集和服務進行管控。

     ■ 賬号和權限:采雲間有完整的權限模型,不僅可以透過odps對db裡的資料進行權限管理,也支援在應用層實作行級和列級的資料權限設定,同時考慮到企業級使用者,不是每個企業員工都對應有阿裡雲賬号,采雲間的權限流程審批支援接入企業的内網系統。

     總結

     前文闡釋了采雲間的産品定位、應用步驟和架構思路,下面我們就來總結一下它的核心産品優勢。

     ■ 依托阿裡雲飛天平台,天生具備大資料的處理能力,且具有很強的擴充能力。

     ■ 投入小,回報快。線上服務模式,無需部署,開通就可以使用;按需、按使用量付費,初期費用基本為零。

     ■ 提供更友好的操作界面,易于上手,從技術層面降低企業使用大資料的門檻。

     雖然采雲間在阿裡内部已得到廣泛應用,但外部的産品仍處于公測期,在産品和技術上還有很多方面需要進一步完善和加強。歡迎大家現在可以申請試用,采雲間和odps的産品營運團隊将在12月選取少量使用者進行重點服務,以進一步提升産品品質。相信通過采雲間不斷完善的全鍊路的資料處理工具,企業将更加容易收獲大資料的價值。

周衛林

    花名敬智,有10年dw/bi領域工作經驗,對該領域有深入了解和實踐,堅信“資料創造價值”。目前在螞蟻金服平台資料部擔任核

探秘采雲間:全鍊路資料處理工具直擊傳統DW/BI痛點

心架構師,帶領團隊完成大資料應用相關領域的技術研發,特别專注于實時計算、資料可視化等大資料技術的創新業務應用。