天天看點

建構“Zero ETL”未來,亞馬遜雲科技幫助開發者實作近實時分析

作者:亞馬遜雲科技
建構“Zero ETL”未來,亞馬遜雲科技幫助開發者實作近實時分析

資料是每個應用程式、流程和業務決策的核心。當資料被用于改善客戶體驗和驅動創新時,就能推動業務增長。

據 Forrester 研究,相對于資料應用不夠成熟的公司,那些有效擷取業務洞察的公司,有高達8.5倍的可能性實作至少20%的收入增長。然而,要實作這一增長,需要簡化一項流程——在資料分析前管理和準備好資料。

這就是為什麼亞馬遜雲科技正在建構“Zero ETL 的未來”,如此一來,客戶可以更多地專注于從資料中創造價值,而不是花精力在準備資料上。

ETL 的挑戰

什麼是 ETL?ETL 是提取(Extract)、轉換清洗(Transform)、加載(Load)的過程,也是資料工程師用來整合來自不同來源的資料的過程。ETL 過程可能伴随着挑戰性高、耗時長和成本高的問題。首先,它需要資料工程師手動編寫自定義代碼;接下來,DevOps 工程師必須部署和管理基礎設施,以確定資料管道能夠與工作負載一起擴充。如果資料源發生變化,資料工程師必須手動改代碼并再次部署。這個過程可能需要幾天的時間,然而與此同時,資料分析師無法進行互動式分析或建構可視化的界面看闆,資料科學家無法建構機器學習(ML)模型或進行預測,導緻最終使用者無法做出基于資料的決策。

此外,建構或更改資料管道所需的時間,可能會導緻資料不适用于近實時的場景,比如檢測欺詐交易、釋出線上廣告和追蹤乘客列車的時刻表。在這些情況下,改善客戶體驗、抓住新的業務機會或降低業務風險的機會可能就這樣錯過了。

反之,當企業可以快速、無縫地內建來自不同來源的資料時,他們對自己的客戶和業務有了更好的了解,那麼企業就可以更有信心地進行資料驅動的預測,改善客戶體驗,并在整個業務中推廣資料驅動的洞察。

亞馬遜雲科技正在将

“Zero ETL”的願景變為現實

我們一直在朝着實作“Zero ETL” 的目标穩步前進。我們聽到了客戶的回報,他們希望能夠直接将流式資料接入他們的資料存儲中進行分析,而無需去研究複雜的 ETL 過程。

通過 Amazon Redshift 流式資料攝入功能,企業可以配置 Amazon Redshift 直接接入來自流式服務 Amazon MSK (Managed Streaming for Apache Kafka) 或 Amazon Kinesis 的高吞吐量流式資料,并讓它們在幾秒鐘内進行近實時分析。他們可以連接配接到多個資料流,并将資料直接注入 Amazon Redshift,而無需在 Amazon Simple Storage Service (Amazon S3) 中進行暫存。運作分析後,可以通過雲原生、無伺服器的商業智能(BI)服務 Amazon QuickSight,讓整個企業從業務洞察中獲益。通過 Amazon QuickSight Q,使用者可以輕松直覺地獲得業務洞察,這個功能能友善使用者使用自然語言提出關于他們資料的業務問題,并通過資料可視化快速獲得結果。

在實作 Zero ETL 的過程中,亞馬遜雲科技還提供了一項重要功能,即能夠在無需移動資料的情況下查詢各種資料源。通過使用 Amazon Redshift 和 Amazon Athena 中的聯邦查詢,企業可以對存儲在他們的事務型資料庫、資料倉庫和資料湖中的資料運作查詢,進而擷取來自多個資料源的洞察,而無需移動資料。資料分析師和資料工程師可以使用他們熟悉的 SQL 指令來連接配接多個資料源,以便進行快速分析,并将結果存儲在 Amazon S3 中以供日後使用。這種靈活的方法簡化了資料攝入過程,避免了複雜的 ETL 流程。

在2022年亞馬遜雲科技 re:Invent 大會上,我們推出了 Amazon Aurora 與 Amazon Redshift 的 Zero ETL 內建。請觀看以下視訊:

視訊加載中...

我們從客戶那裡了解到,他們在建構和管理事務型資料庫與資料倉庫之間的 ETL 管道上花費了大量的時間和資源。舉個例子,假設有一家全球制造公司,在十幾個國家擁有工廠,并使用一系列 Aurora 資料庫叢集管理每個國家存儲訂單和庫存資料。當公司高層想要檢視所有訂單和庫存時,資料工程師必須為每個 Aurora 叢集建構單獨的資料管道,将資料整合到一個中心資料倉庫中,以便資料分析師可以查詢整合後的資料集。為了實作這一點,資料內建團隊必須編寫代碼來連接配接到12個不同的叢集,并分别管理和測試12個生産環境管道。團隊部署代碼後,還需要不斷監控和調整該管道以優化性能,而且一旦有任何變化,就需要在12個不同的地方進行更新。這是一項非常重複冗長的工作。

Amazon Aurora 和 Amazon Redshift

之間不再需要定制的 ETL 管道

Aurora 與 Amazon Redshift 的 Zero ETL 內建将 Aurora 的事務資料與 Amazon Redshift 的分析能力結合在一起。這樣一來,建構和管理 Aurora 與 Amazon Redshift 之間的定制 ETL 管道的工作量大大減少。

和傳統系統中的“資料孤島”不同,使用者必須在統一分析和性能之間做出權衡;而現在資料工程師可以将多個 Aurora 資料庫叢集中的資料複制到同一個或新的 Amazon Redshift 執行個體中,以獲得跨多個應用程式或分區的全面洞察。Aurora 中的更新會自動連續地複制到 Amazon Redshift,這樣資料工程師就可以幾乎實時地擷取最新的資訊。整個系統是無伺服器的,可以根據資料量的大小動态地上下擴充,是以,企業無需管理基礎設施。現在,企業可以在 Aurora 中真正實作快速、規模化地事務分析以及 Amazon Redshift 中的可擴充分析,所有這些功能都內建在一個無縫的系統中。通過幾乎實時通路事務資料,企業可以充分利用 Amazon Redshift 的分析能力,如機器學習、物化視圖、資料共享,以及對多個資料存儲和資料湖的聯邦通路,從事務及其他資料中擷取洞察。

持續提高 Zero ETL 的性能是亞馬遜雲科技的持續性目标,例如,我們的早期就使用 Zero ETL 預覽版的客戶觀察到,他們的 Amazon Aurora MySQL 資料庫每分鐘産生數十萬個事務,這些事務在不到10秒的時間内就能出現在他們的 Amazon Redshift 資料倉庫中。在這之前,他們将資料從 ETL 管道移動到 Amazon Redshift 的過程需要超過2個小時的延遲時間。通過 Aurora 和 Redshift 之間的 Zero ETL 內建,他們現在可以實作幾乎實時的分析。

Zero ETL 使資料工程師能夠在使用過程中直接內建服務并直接查詢各種資料存儲,進而使他們能夠專注于從資料中創造價值,而不是花費時間和資源來建構資料管道。亞馬遜雲科技将繼續緻力于建構 Zero ETL 未來,助力企業走向資料驅動的業務增長之路。

客戶故事

建構“Zero ETL”未來,亞馬遜雲科技幫助開發者實作近實時分析

北京樂城堡科技有限公司成立于2013年,團隊成員分布于美國加州、中國北京及上海,是一家面向全球的移動網際網路公司,公司在深入研究細分遊戲市場的基礎上,結合對深度使用者體驗的了解,專注于智能手機遊戲及應用的研發和發行。

建構“Zero ETL”未來,亞馬遜雲科技幫助開發者實作近實時分析

樂城堡采用 Amazon Redshift 産品作為企業的核心資料倉庫服務,通過将使用者行為的埋點資料寫入到 Amazon Managed Streaming for Apache Kafka(MSK),結合 Amazon Redshift 内置的 Streaming Ingestion 技術能夠将資料以準實時方式的寫入到 Amazon Redshift,并在此基礎之上開展後續所需的資料分析。

Amazon MSK 作為全托管、高可用的 Apache Kafka 服務,幫助我們快速建構流式傳輸的管道,将之前端到端的資料傳輸延遲從分鐘級提升到秒級,使得實時攝取和處理流資料變得簡單高效。Amazon Redshift 作為企業級資料倉庫,能夠容納規模至 PB 級别的資料,實作複雜查詢,保證遊戲營運人員能快速擷取所需的資料與統計資訊,無論是規模還是并發性能,對于業務的持續增長我們都能保持信心。

李明

北京樂城堡科技有限公司資料總監

Amazon Aurora zero-ETL integration with

Amazon Redshift 現已支援公開預覽!

讓我們共同見證亞馬遜的一小步

雲計算的一大步

建構“Zero ETL”未來,亞馬遜雲科技幫助開發者實作近實時分析

繼續閱讀