在日前的2021阿裡雲金融資料智能峰會——《雲原生驅動數智化營運的“增長黑馬”》專場上，阿裡雲資料庫資深技術專家魏闖先從資料價值鍊路角度切入，為大家解讀雲原生資料倉庫如何支撐資料化營運、全鍊路營銷和阿裡集團雙11業務，并展示金融客戶最佳實踐案例和應用場景。本文内容根據演講錄音及PPT整理而成。

阿裡雲資料庫資深技術專家魏闖先

一、背景與趨勢

（一）阿裡巴巴15年雲計算實踐

回顧阿裡巴巴十五年來雲原生發展的道路，大緻分為三個階段。

第一個階段是2006年～2015年的應用架構網際網路化階段，是雲原生從0到1的過程。最早的時候，阿裡巴巴在淘寶上做中間件，那是最早的雲的雛形。當時我們研究的是Oracle資料庫和IBM的小型機。但阿裡巴巴發現一個問題，就是随着淘寶流量越來越大，Oracle的機器無法繼續滿足業務需求，三個月之後，我們的資料将存不下也算不了。這是非常嚴重的問題，是以當時阿裡巴巴啟動了去IOE的計劃。

這個時候，阿裡巴巴發現我們的業務做得非常好，但技術上有很多挑戰。是以，阿裡巴巴在2009年成立了阿裡雲，自研飛天作業系統，開啟雲化時代，淘寶和天貓合并建設業務中台，屆時三大中間件核心系統上線。

飛天作業系統基于Apsara，是一個分布式的作業系統。在基礎公共子產品之上有兩個最核心的服務：盤古和伏羲。盤古是存儲管理服務，伏羲是資源排程服務，飛天核心之上應用的存儲和資源的配置設定都是由盤古和伏羲管理。飛天核心服務分為：計算、存儲、資料庫、網絡。

為了幫助開發者便捷地建構雲上應用，飛天提供了豐富的連接配接、編排服務，将這些核心服務友善地連接配接群組織起來，包括：通知、隊列、資源編排、分布式事務管理等等。

飛天最頂層是阿裡雲打造的軟體交易與傳遞第一平台----雲市場。它如同雲計算的“App Store”，使用者可在阿裡雲官網一鍵開通“軟體+雲計算資源”。雲市場上架在售商品幾千個，支援鏡像、容器、編排、API、SaaS、服務、下載下傳等類型的軟體與服務接入。

這就是最早的雲的基礎架構，也是一個雲原生的架構。

從2011年開始，我們開始做容器排程，在集團裡面開始做線上業務，線上的業務開始走容器化。到了2013年，自研飛天作業系統全面支撐集團業務。

2015年，阿裡雲的雲原生技術不單是給阿裡巴巴的内部業務使用，也開始對外做商業化，以上就是第一階段。

第二階段是2016年～2019年的核心系統全面雲原生化階段。

從2017年開始，我們不隻做線上了，離線也全部采用了雲原生的技術。雙11購物節有大量的交易資料，這些資料的背景分析和後期處理都是交給離線完成。我們基于雲原生把線上和離線的底層資源池統一，支撐百萬級規模電商交易。

到了2019年，阿裡巴巴核心系統100%上雲，這其實非常難，因為阿裡巴巴的業務量非常巨大，任何普通的系統都無法支撐。

第三階段是2020年至今，是全面更新下一代雲原生技術的階段。阿裡巴巴成立雲原生技術委員會，雲原生更新為阿裡技術新戰略。阿裡巴巴核心系統全面使用雲原生産品支撐大促。阿裡雲雲原生技術全面更新，Serverless時代開啟。

（二）阿裡雲對于雲計算的斷言

阿裡巴巴是怎樣看待雲計算的？雲計算和傳統技術的差别到底是什麼？

舉個例子，在一個家家戶戶都需要挖井的村莊裡，每家根據自家人口數量、大概需要的出水量、是否會有客人來等等因素，決定挖多寬的井。如果遇上家裡客人比較多或者幹旱了等狀況，水可能就不夠用了。除了挖井的成本外，日常維護這口井，也需要很高的成本。

上述場景映射到企業中，就是企業基于自己的IT基礎，還要到營運商那裡買個機房，買幾台伺服器來支撐自己的服務。如果後續這些機器閑置的話，企業仍然需要支付一大筆費用，成本非常高。

雲解決的問題就是通過虛拟化的技術實作資源池化，用上方挖井例子來形容就是建一個自來水廠。自來水廠和井的差别在于，第一，供水量很大，即使來100個客人，供水量也能滿足需求。第二，前期不需要投入大量成本去挖井，而是根據用水需求按量計費。即使接通自來水管道，如果不用，那麼永遠也不需要為它付費。

這為企業帶來了兩大好處，第一個是企業需要做快速決策的時候，不用花大量時間去“挖井”，而是開箱即用。第二是前期投入成本很低。

這就是雲帶來的好處，那麼什麼是雲原生呢？

雲原生是個标準服務，很多東西我們不需要提前規劃。比如我要做數字化轉型，需求很簡單。我需要有人給我提供這個服務，我要多少，他給我配置設定多少，不需要我去做提前的準備。随着我業務的增長，它底下的基礎設施能夠随之一起增長，具有非常好的彈性。這也大大地減少企業成本與精力，可以更加專注地去做最擅長的事情，大幅提升效率。

通過以上的例子，下面這幾點就非常好了解了。

首先，我們認為容器+K8s會成為雲計算的新界面，這是未來的一個趨勢。

其次，整個軟體生命周期也會發生變化。原來軟體的生命周期很長，現在通過雲原生的技術可以做到疊代速度越來越快，向下延伸軟硬一體化、向上延伸架構現代化等都可以去做。

最後，加速企業數字化更新。原來做企業數字化轉型非常複雜，可能要買機器、買資料庫、買應用，需要三年五載的時間來完成。而如今的企業數字化轉型，隻花短短數月的時間，便可實作完全轉型。

（三）業界趨勢：資料生産/處理正在發生質變

從業界趨勢上看，未來資料會發生什麼變化，給應用帶來什麼變化？

首先，我們認為未來資料一定會規模爆炸性增長。2020年全球資料規模約為40 ZB。40 ZB是什麼概念？舉個例子，假設每部電影是1GB，假設全世界每個人都去看一部電影，那麼這些資料量加起來大概就是40ZB。

除此之外，我們預計2025年的全球資料規模将會是2020年的430%，全球資料規模每年都在增長。

第二個是資料生産/處理實時化。原先我們可能一個月看一次報表，經過大資料，我們可以每天看一次昨天的資料。資料越來越實時化，能夠實作秒級響應。以營銷場景為例，在雙十一購物節場景，當商家發現店鋪的某個活動不能産生效果，那麼可以在一分鐘或者數分鐘之内調整廣告或投放政策，進而達到更好的營銷效果。如果資料是按天回報，在11月12日看到資料的時候，做活動帶來的效果已經大大降低了。是以，資料實時化在這樣類似的場景中，扮演着十分重要的角色，資料的實時也會帶來應用的實時。

第三是資料生産/處理智能化。目前在所有資料中，非結構化資料占比80%，主要包括文本、圖形、圖像、音頻、視訊等，尤其是在當下熱門的直播領域，對非結構化資料進行智能化處理，能夠知道觀衆的喜好與其他資訊，友善業務更好地開展。除此之外，非結構化資料以每年增加55%的速度持續增長，未來将成為資料分析非常重要的一個來源。

第四個是資料加速上雲。我們認為資料上雲勢不可擋，正如汽油車終将被電車代替一樣。預計到2025年的時候，資料存儲雲上規模為49%，2023年資料庫上雲規模75%。

（四）業界趨勢：雲計算加速資料庫系統演進

另一個業界趨勢不容忽略：雲計算加速資料庫系統演進。

首先我們看一下資料庫發展曆程。早在八九十年代資料庫就已經誕生，那時候主要是商業資料庫，如Oracle、IBM DB2等，這裡面有些資料庫還占據這如今的市場。

到90年代，開源資料庫開始湧現，如PostgreSQL、MySQL等。國内用MySQL比較多，國外用PostgreSQL比較多。到90年代以後，資料量越來越大，原來數量小的時候可能用PostgreSQL或MySQL，單機就可以解決問題，随着資料量爆炸性增長，就需要像分布式或小型機的方式去解決大量資料和分析問題。

資料分析的重要性展現在哪裡？

舉個例子，有個資料倉庫Snowflake的公司在剛上市的時候就達到1000億美金的市值，如今也有700億美金，對于一個隻做一款産品的公司來說，這是一個非常高的市值。為什麼它的市值這麼高？

前段時間和一位老師交流，他說對于現在的企業，尤其是電商或直播等網際網路企業，早先他們企業最大的成本是人力，員工工資占據主要支出。但如今最大的支出是資訊和資料，為了公司未來的發展規劃，需要擁有大量的資料來分析目前客戶最想要什麼，最需要什麼，業界的發展是什麼。是以，公司需要大量購買資料、做大量的資料分析，這方面的成本已經超過了人員成本。這也是為什麼一個隻做資料倉庫的公司，市值能夠達到700億美金。

2000年以後大家開始用Hadoop、Spark，2010年開始出現雲原生、一體化分布式等産品，例如AWS、AnalyticDB等。

（五）業界趨勢：資料倉庫加速從Big Data向 Cloud-Native + Fast Data 演進

上方是資料倉庫的演進曆史，計算方式從離線到線上，再到離線上一體化，然後到分布式。功能從統計到AI，資料類型也從結構化到結構化與非結構化多模融合，負載從OLAP到HTAP，硬體也更新為軟硬體一體化，傳遞從On-Premise 到Cloud - Native + Serverless。

在演進的不同程序中，有着各式各樣的産品做支撐。

（六）資料庫系統架構演進

上圖為資料庫系統架構演進，簡單的邏輯可以了解為，原來是一個廠房一個人幹活，後來變成一個廠房十個人幹活，然後再發展成多個廠房多個人幹活，這就是整個資料倉庫的發展曆史，由原來的單機變成分布式，并且一份資料多個人使用。

資料庫的發展也跟人類工作一樣，原來有的店夫妻二人就可以維持，一個人負責生産，另一個人負責銷售。随着發展，店裡的顧客越來越多，店還是一個店，但員工可能有十個人了。再後來，業務發展更多大了，一下招10萬個員工，然後在10個場地去幹，這就是分布式雲原生資料倉庫。

（七）業界趨勢：雲原生資料庫關鍵技術

上方是雲原生資料庫的關鍵技術。

這裡簡單說兩個技術，首先是雲原生，雲原生是什麼意思呢？假如某位使用者買了個資料庫，當業務量少的時候，或者在法定節假日不使用的時候，收費就少，而在業務量大的時候，收費就多一些。按需按量收費，這是我們對資料倉庫的一個要求。

另外一個是安全可信，舉個例子，阿裡巴巴有一個投資部，假如給A公司投了500萬，給B公司投了100萬，這些資訊都是高度私密，不可對外洩露的。假如這些資訊是由員工進行管理，員工存在離職的可能，而一旦離職後發生洩密行為，這在法律層面也很難追責。如何讓這種高度私密的資訊完全加密，使得就算是擁有最高權限的DBA也無法檢視這類資訊，做到安全可信。後文将對此做詳細展開。

二、雲原生與大資料應用

（一）業務面臨的挑戰

業務面臨着許多挑戰，主要有四個方面。

首先是資料散亂、不一緻，也有非常多的資料源，把資料收集起來是一個很大挑戰。

其次是系統極其複雜，系統或元件有40+個。原來可能基于Hadoop，現在需要非常多的系統或元件，底下可能是HDFS，上面是YARN、HBase，再往上還有Hive、Flink等許多東西，非常複雜。

除此之外還有分析不實時，它的資料隻能做T+1，是傳統大資料架構。

最後是高學習成本，不同技術的版本疊代速度很快，學習成本很高。

（二）雲原生資料倉庫+雲原生資料湖建構新一代資料存儲、處理方案

阿裡雲當時采用的是從一個最簡單的架構，通過一個或兩個産品就能解決整套産品的架構，能夠讓使用者用得更簡單，用SQL就可以解決各種各樣的問題。比方原來的OSS資料，各個生産處理的資料大集中分析等。

（三）雲原生資料倉庫：雲原生

雲原生資料倉庫的雲原生特性主要展現在，如果就一條資料，那麼隻會配置設定一條資料的存儲，如果資料量增長，它會自動配置設定更多的存儲。

同樣的，計算也是這樣，如果沒有計算需求或者分析需求，它不會配置設定資源，隻有來了需求，才會配置設定資源進行計算或分析，整個做到按需按量付費，加上資源的彈性。

（四）雲原生資料倉庫:資料庫與大資料一體化

上面是雲原生資料倉庫中的關鍵技術，例如行列混存，能夠支援高吞吐寫入和高并發查詢。

其次是混合負載，就是上面既可以跑ETL，又可以做查詢。

此外還有智能索引。資料庫裡面很重要的一個點是需要了解業務，了解Index，要知道什麼對查詢有影響，什麼對寫入有影響，是以我們希望這個東西能夠做得更智能，讓使用者不用管理這些東西。

（五）新一代資料倉庫解決方案

上方為新一代資料倉庫解決方案架構圖。最底層是數倉，上面是數倉模型，阿裡在淘寶指數，資料洞察等方面做了非常多的模型，包括通過一個ID把所有的資訊關聯起來。這些資訊彙聚成模型。模型上有資料建構管理引擎，可以做數倉規劃，代碼研發，資料資産管理，資料服務等。

最上面是業務賦能，有許多的應用，包括監管報送類，經營決策類，風險預警類和營銷與營運類。

（六）雲上資料安全

關于雲上資料安全的問題，我們展開來講。每個公司都有絕密的資料，這些資料面臨着許多安全問題，例如管理者/使用者越權操作，竊取資料備份，惡意修改資料等。除此之外，還有資料在存儲、查詢、共享過程中全程加密，任何人(包括管理者)無法擷取明文資料。保證日志在不可信環境中的完整性，任何人(包括管理者)無法篡改日志檔案。保證查詢結果在不可信環境中的正确性，任何人(包括管理者)無法篡改查詢結果。

以前的解法很簡單，就是寫到資料庫的時候就把資料加密了，例如寫進去叫123，通過加密就變成了亂序，如213,312等。這個看似是一個很好的方法，但它有什麼問題呢？它沒有辦法做查詢，比方我們要查超過50塊錢的交易，但是因為50通過加密以後就不是50了，可能就變成了500，而原來500加密完就是50，是以這個查詢無法進行，相當于它變成了一個存儲，無法做分析查詢。

（七）雲端全程加密資料永不洩露

有沒有一種方法能讓我們做資料分析，同時既能保密，原來的SQL也都能去做？

這裡面核心的事情就是我們采用的硬體，通過ApsaraDB RDS（PostgreSQL版）+神龍裸金屬伺服器（安全晶片TEE技術），可以提前把Key存到裡面去，然後所有的計算和邏輯都在加密硬體中進行。由于整個過程受加密硬體保護，即使有人把系統的記憶體全部複制出來，複制出來的資料也全是加密過的，這就保證運維人員就算拿到絕密資料也沒有洩露的風險。

三、最佳實踐

下面我們看一下幾個最佳實踐：

DMP：全鍊路營銷

DMP(Data Management Platform)表示資料管理平台，也叫資料營銷平台。

營銷最核心的事情是什麼？營銷最核心的事情是找人，找到最關心的一群人，專業詞稱為圈人。

舉個例子，什麼場景需要圈人？比如今天我們想找一下對雲原生感興趣的人來一起讨論雲原生。把對雲原生感興趣的人找到，這個過程就叫圈人。

還有一種是類似于天貓淘寶報告，例如在雙十一前的一段時間，商家認為某位客戶今年可能要買個衣服或買一個包，是潛在客戶，于是就去給TA推一些消費券等。

這裡面最關鍵的就是精準人群的定位，能夠精準地把人群區分出來。中國大概有電商消費人群大概有8億人，給對某樣物品感興趣的人群推送消息，這裡面最核心的就是圈人的事情。

阿裡巴巴基于數倉去做圈人的事情，首先去找一些種子人群，這些種子人群數量大概為幾百萬人，是我們認為的高優質客戶，比如每個月在淘寶上花5000塊以上或1萬塊以上的人。把人群全出來後，第二步是将群體進行聚類。

聚類的意思是把幾百萬人再分成幾個小類，每一類裡面可能喜歡一個類别，比方這一類喜歡買化妝品，另一類喜歡數位産品，還有一類喜歡買書。劃分完小類以後，比如愛買化妝品的可能有10萬人，但這10萬人可能大部分之前已經買過化妝品了，這次大機率不買了。

是以，我們需要在在8億消費人群中找到真正可能買化妝品的人，該怎麼做呢？

我們需要把每個客戶的消費行為和曆史購買記錄轉成AI模型的一個向量，如果有兩位客戶的購買行為是類似的，那麼他們的向量距離就會非常小，這樣的話我們的做法就很簡單。例如，我們對數位産品感興趣的人作為種子放到8億裡面去找，跟這些人種子向量距離最近的假如有1000萬人，然後對這1000萬人去發數位産品的廣告或優惠券等，用這種方式去做業務營銷。

這個過程最核心的有幾個方面。

第一個是将人群進行聚類，把人群劃分，知道TA的曆史交易，資料必須要能夠支援任意次元多元分析。

第二個是能夠對整個數倉裡面的資料做具體的分析。

第三個是聚類後的向量近似度檢索，找出與每個類向量相近的人群進行消息推送。

這就是我們擁有的能力，目前是基于AnalyticDB實作。

還有一個事情是要做Ad-hoc查詢。例如，我們要找到對數位感興趣的人群，，且去年沒有買過比如iPhone 12的人，這樣他今年才可能買iPhone12。或者說去年買了iPhone12，同時又買了AirPods的人，那我們認為大機率他可能會買蘋果的鍵盤，或者是蘋果的電腦等。我們需要對這些人做各種各樣的交易查詢，進而精準地找到我們的目标人群。

廣告精細化管理

業務挑戰：

1）投放關鍵詞搜尋事件需要高并發實時入庫；

2）所有使用者通過儀表闆同時查詢轉化率，複雜查詢 QPS高；

3）響應時間要求高，避免錯過調價黃金時段。

業務價值：

1）多個站點、多個店鋪的關鍵詞統一管理；

2）處理上萬TPS并發寫；

3）海量資料實時分析，按時段智能調價；

4）鍵詞快速識别分析，最大化收益。

線上電商

1）傳統MySQL資料庫分析滿，千萬級/億級複雜報表無法傳回；

2）複雜報表秒級傳回；

3）相容MySQL生态；

4）業務發展迅速，對計算存儲有不同要求。

1）RDS + AnalyticDB 實作HTAP聯合方案，業務和分析隔離；

2）2-10倍分析性能提升；

3）分布式架構，橫向擴充，靈活變配，支援資料量和通路量的不同需求

這就是2020年至今，全面更新下一代雲原生技術的階段----Serverless時代。阿裡巴巴成立雲原生技術委員會，雲原生更新為阿裡技術新戰略，未來雲原生資料倉庫還會有更多新功能，為行業解決更核心的痛點，敬請期待。

金融資料智能峰會 | 資料規模爆炸性增長，企業如何進行精準決策？雲原生資料倉庫資料化營運實戰分享一、背景與趨勢二、雲原生與大資料應用三、最佳實踐

一、背景與趨勢

（一）阿裡巴巴15年雲計算實踐

（二）阿裡雲對于雲計算的斷言

（三）業界趨勢：資料生産/處理正在發生質變

（四）業界趨勢：雲計算加速資料庫系統演進

（五）業界趨勢：資料倉庫加速從Big Data向 Cloud-Native + Fast Data 演進

（六）資料庫系統架構演進

（七）業界趨勢：雲原生資料庫關鍵技術

二、雲原生與大資料應用

（一）業務面臨的挑戰

（二）雲原生資料倉庫+雲原生資料湖建構新一代資料存儲、處理方案

（三）雲原生資料倉庫：雲原生

（四）雲原生資料倉庫:資料庫與大資料一體化

（五）新一代資料倉庫解決方案

（六）雲上資料安全

（七）雲端全程加密資料永不洩露

三、最佳實踐

DMP：全鍊路營銷

廣告精細化管理

線上電商

繼續閱讀

報錯：'mysql' 不是内部或外部指令，也不是可運作的程式或批處理檔案。

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

mysql使用source指令導入.sql檔案

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述