打造資料計算和分享的第一平台。
—— 2009年阿裡雲成立時的願景
上次我們聊了聊有關網絡協同的一些「啟發」,那就是祭品、巫師、麻瓜結構,而在阿裡巴巴的大資料生态下的「巫師」則要學習和掌握以下這些「魔法」:
- MaxCompute大資料平台、MaxCompute是一個SaaS模式的企業級雲資料倉庫,是一個阿裡雲在2009年成立的時候就開始研發的大資料計算平台,MaxCompute對标的開源産品是Hadoop,主要的應用場景是海量資料的存儲和離線批量計算,相對于Hadoop主要的優勢在于其原生就具備多租戶安全隔離機制和基于标簽的MAC強制通路控制安全模型,另外在機關資料的計算成本上也更具優勢。
- DataWorks大資料開發平台、是一個一站式的大資料研發與資料治理平台,提供大資料管理、開發、運維、資料內建功能,通過資料內建可以內建整合各種資料源上的資料,資料治理提供資料資産管理的相關功能,包括資料發現、資料探查、資料資産地圖等功能,并對于資料品質控制有一套完善的保障體系,最終支援将資料以安全可控的方式提供對外服務。最初的DataWorks主要配合MaxCompute使用,目前已經支援和Flink流式計算引擎和Hologres線上互動分析引擎配合使用,為三大計算引擎提供強大的開發、運維、報警監控平台。
- Flink流式大資料計算引擎、對比MaxCompute離線計算引擎,Flink主要的應用場景是諸如雙十一實時交易統計、實時交易風控、線上機器學習等應用場景。Flink雖然脫胎于開源産品,但阿裡巴巴在合并Flink的開發團隊後對在雲上提供的版本進行了深度定制優化,目前已經能夠完美的融入阿裡巴巴的大資料生态系統中。
- Hologres大資料互動式分析引擎、是一款大資料實時互動分析産品,可以在海量資料上提供實時的查詢響應、Hologres既能提供HBase的點查詢能力、也能提供Druid一樣的即席查詢(Ad-hoc)能力、同時也能支援Impala一樣的複雜OLAP查詢。Hologres在底層存儲上和MaxCompute無縫打通,可以直接通路存儲在MaxCompute上的資料,,進而避免資料遷移帶來的額外成本,在互動接口上Hologres直接使用PostgresSQL的成熟生态,進一步降低內建和學習的成本。
- 機器學習平台PAI、為深度學習和傳統機器學習使用者提供了一站式的資料處理、模型訓練、模型部署和預測的一站式服務。在模型訓練方面根據使用者對AI相關技術的掌握情況提供四個等級的服務,分别是零門檻的PAI-Autolearning自動化機器學習平台、提供200多種算法群組件的可視化模組化平台PAI-Studio、面向Tensorflow使用者提供的jupyter互動式模組化平台PAI-DSW、面向需要進行深度GPU性能優化的PAI-Blade。在模型部署和預測方面可以将PAI-DSW、PAI-Studio平台訓練好的模型無縫對接到PAI EAS線上推理服務,PAI EAS支援快速的彈性擴縮容和藍綠釋出等運維管理特性。
- Datahub實時資料分發服務、是一個流式資料釋出和訂閱服務,差別于DataWorks内置的用于離線資料同步的資料內建,Datahub通常用來和Flink一起內建并用于流式資料的釋出和訂閱,Datahub支援的采集的資料源包括日志采集(LogStash/Fluntd)、資料庫binlog采集(DTS/Oracle GoldenGate)、甚至包括視訊采集(GB28181協定),通過訂閱/分發機制實作資料的一次寫入多次使用。
- ElasticSearch檢索分析引擎、ES是業内最主流的資訊檢索分析引擎,通常配合ES的生态服務包括Beats(資料采集器,可以向Logstash或ES發送資料)、Logstash(日志收集、過濾、傳輸工具)、Kibana(資料可視化監控大盤)。ES的主要應用場景包括産品和服務的搜尋、資料的聚合分析、日志資料的實時監控等場景。阿裡雲上的ES相對于開源版本增加了額外的付費的X-pack插件和達摩院提供的中文分詞器。
- AIRec智能推薦服務、AIRec是基于阿裡巴巴在電商、内容、新聞、視訊直播和社交等領域的積累而為全球企業及開發者提供的雲推薦服務,相對于通過PAI機器學習平台建構的半托管推薦服務,智能推薦服務AIRec一種全托管的推薦服務,提供由友盟合作打造的定制版用戶端SDK,可對Android/IOS終端進行行為資料采集,将複雜的推薦算法模型、排程管理政策封裝隐藏,隻需完成資料對接即可使用。
- QuickBI資料可視化分析平台、QuickBI是一個輕量級的自助BI工具服務平台,通過業務人員的拖拽式操作即可實作豐富的資料可視化效果,可以讓業務人員取數找數不再依賴技術人員,通過與現有業務系統內建整合,滿足各個不同崗位人員各自的資料需求,最終的目标是人人都是資料分析師。
- DataV資料可視化平台、是一款資料可視化應用搭建平台,和QuickBI主要面向業務崗位不同,DataV面向的主要使用者還是以IT技術人員為主。DataV可以為資料分析、業務分析、營運、設計師、開發者提供完整的可視化搭建工具鍊,進而提升資料可視化搭建效率,每年的雙十晚會都會呈現由DataV搭建的資料大屏,讓資料的更強烈的被大衆所感覺。
觀察這些「魔法」不難發現:這其中既有大量自研産品,也包含諸如ES、Flink這樣的優秀開源産品和服務,而無論是自研還是開源都已經在阿裡巴巴生态下經過了長時間的優化、打磨、适配進而已經完美的契合在了一起,通過這些「魔法」,資料的價值将被以更快的速度、更低的延遲、更低的成本被開發出來。