天天看點

如何更深刻的了解 “Gartner2020年資料與分析技術十大趨勢”的内涵?

以下文章來源于與資料同行 ,作者傅一平

Gartner 2020年釋出了“”資料與分析領域的十大技術趨勢”,2020年過去了,這些趨勢判斷到底靠譜嗎?

筆者沒有足夠的資料,沒法做出權威的判斷,但考慮到身處數字化水準比較高的通信行業,接觸的資料技術還是比較多的,如果這些趨勢靠譜,那或多或少會對我的工作産生影響,這裡就來談談我對這些趨勢的具體看法。

趨勢1:更智能、更高速、更負責的AI

到2024年底,75%的企業機構将從 人工智能 (AI)試點轉為AI營運,基于流資料的分析基礎架構的數量将是以增加5倍。而強化學習和分布式學習等其他更智能的AI技術正在建立更具适應性和靈活性的系統,用于處理複雜的業務情況。

公司剛剛開過工作會,我突然發現AI的應用已經在公司遍地開花了,無論是早期的比較成熟的人臉識别,還是現在的AI+RPA的“數字員工”、5G基站智能驗收、行業視訊監控、滿意度預測或是網際網路反詐,AI的應用普及速度的确比我想的快,原來以為缺乏場景,但實際上,也許是我們缺乏發現場景的眼睛。

AI中台現在也提出來了,比如中國移動的九天,以應對越來越多的應用需求,這代表了一種服務化的趨勢。

雖然我們已經将離線資料中台更新為實時資料中台,支撐的應用超過了100個,但基于流資料的AI應用似乎還比較遙遠,也許網際網路會先飛一會兒。

趨勢2:儀表闆的衰落

具備更多自動化和消費化體驗的動态資料故事将取代視覺化、點選式的資料建立和探索。是以,使用者使用預定義儀表闆的時間也将會減少。向支援增強分析或NLP等技術的動态資料故事轉變,這意味着:最相關的洞察将基于使用者的場景、角色或用途,流式傳輸給每個使用者。

“增強分析”的概念早在2017年就被Gartner提出了,被譽為資料與分析市場内的下一波颠覆性技術,是資料分析的未來。簡言之,就是将人工智能技術(AI)賦能商務智能(BI),更簡單的了解就是采用機器學習(ML)、自然語言處理(NLP)、資料挖掘等技術應用到資料分析流程中,使資料分析更加自動化、智能化。

移動網際網路的發展、越來越個性化的場景需求,需要為業務人員提供個性的、靈活的、所見即所得的分析支撐能力,自己寫過一篇文章《BI(商業智能)的未來?》,談到過類似的趨勢。

我們的實時中台上線後,實時應用爆發式的增長,比如在市場營銷方面,大家都需要基于場景的實時預警能力來提升一線的市場響應能力,又比如在反欺詐方面,大家都需要基于實時模型來實作欺詐的事中幹預。

我覺得這展現了分析的實時化、智能化和雲化的趨勢,以靜态報表和名額為核心的儀表盤顯然難以滿足一線生産的要求。

即使是資料管理本身,無論是資料采集、資料處理、資料模組化還是資料品質,都需要更為智能化、自動化的資料清洗和處理手段,比如線上資料采集和處理方面,我們已經較多采用NLP技術對非結構化、半結構化資料進行文本識别和分類,自動轉為結構化資料。

趨勢3:決策智能

到2023年,33%以上的大型企業機構将聘用分析師實作包括決策模組化在内的決策智能。決策智能彙集了決策管理和決策支援等多項技術。它提供了一個架構,幫助資料和分析上司者針對業務成果和行為,設計、建立、協調、執行、監控和調整決策模型及流程。

我一直認為資料分析隻能為決策提供一點參考,有經驗的人類大腦還需要結合自身的管理學、社會學、決策學、心理學等知識,才能成為最好的決策機器,畢竟資料還沒有到能窮舉所有變量的程度。

決策智能其實就在說這個東西,這裡先給個定義:

決策智能是一門通過運用社會科學,決策理論和管理科學中的理論知識來擴充資料科學的一門工程類學科,是關于做選擇的(有點廢話),它融合了資料科學,社會科學和管理科學。

這裡舉個例子:

比如營運商需要為某個小區提供寬帶接入能力,這會涉及到傳輸網絡的擴容,以前的做法可能是一線人工排摸管道資源使用情況,然後層層向上彙報申請擴容,這樣的決策效率就比較低。

通過建構傳輸管道擴容決策管理系統,就可以結合人類決策和機器決策,提高決策效率和決策效果,比如管理人員輸入新增小區的資訊和使用者數,系統就會根據小區的戶數、位置、周邊已經鋪設的管道資源,通過機器學習算法自動計算需要擴容的各類管道資源,進而為管理人員提供擴容的決策依據。

決策智能與人工智能或機器學習還是有顯著的差別,決策智能的核心在于它是需要行動的,你通過人工智能可以獲得一個知識,但在生産中要使用這個知識意味着你需要承擔後果,這是更為複雜而有風險的事情。

AI和ML關注“如果我看到/聽到/聞到X,那麼我能得出什麼結論?”,這是知識,然而,決策智能回答的問題是,“如果我采取了行動A,會有什麼結果“,這展現了智慧。

決策智能可分為定性和定量,從定性的角度看,更多從人性本身出發,比如有經驗的人士,運用自己多年的行業經驗(這些就是他/她的資料)做出決策。但是人性本身的弱點會對決策有很多影響,另外每個人不可能掌握完美的資訊。

是以我們也需要定量的方法去看。定量來說,就是運用資料科學的力量去做決策。我們常提到一個詞叫“資料驅動(data-driven)",其實也是運用資料的力量去幫助我們做決策。

比如前面提到的營運商管道資源的擴容,雖然理論上可以完全用資料驅動的方式來解決,但實際地點是否能鋪設管道,還是需要有經驗的一線人士進行綜合判斷,這展現了決策的複雜性。人工智能固然能給出很多決策依據,但它往往無法走完決策的最後一公裡,現在定性和定量融合決策的趨勢越來越明顯,人工智能在決策中發揮的作用也越來越大。

再舉自動駕駛和滴滴派單的例子。

人工智能已經把自動駕駛的事故率降低到了很低的程度,但要不要将自動駕駛投入實用還需要政府的決策,但政府究竟需要考慮多少因素才能按下這個綠色按鈕?這不僅僅是人工智能的事情。

滴滴在決策是否要派單的時候,除了要考慮經濟效益,也要考慮風險和社會效益,比如晚上單身女子的派單政策,這個時候的決策智能肯定是社會學+人工智能的産物。

可以肯定的是,決策智能會随着企業數字化的發展突飛猛進,因為數字化的本質除了資訊化,更多在于智能化,這在我的企業尤為明顯。

趨勢4:X分析

“ X分析”由Gartner創造的一個總稱術語,其中的X指代各種結構化和非結構化内容(如文本分析、視訊分析、音頻分析等)的資料變量。

在結構化資料的價值被挖掘殆盡的時候,我們的确開始考慮針對更多的非結構資料來打造更豐富的标簽,無論是圖檔、語音、視訊還是文本,這些工作也已經納入了我的工作日程。考慮到非結構化資料的價值密度很低,是以對傳統企業的技術挑戰非常大,無論是處理還是算法,X分析其實是很難做的。

還好,網際網路大廠為我們做出了表率,比如抖音的技術就是X分析的代言人,據說光是過濾違規内容就需要上萬人的技術人員支援,我們可以向他們學習X分析。

趨勢5:增強型資料管理

增強型資料管理利用ML和AI技術優化并改進營運。它還促進了中繼資料角色的轉變,從協助資料審計、沿襲和彙報轉為支援動态系統。 增強型資料管理産品能夠審查大量的營運資料樣本,包括實際查詢、性能資料和方案。利用現有的使用情況和工作負載資料,增強型引擎能夠對營運進行調整,并優化配置、安全性和性能。

近幾年随着資料量的快速增長,我們的資料管理複雜度也大幅提升,比如筆者團隊管理的表有幾十萬張,每天的腳本幾萬個,标簽有上百萬個,資料管理走向自動化、智能化是必然的。

現在很火的AIOps跟這個增強資料管理有千絲萬縷的關系,我能否說,增強資料管理是資料管理領域的AIOps?

不少資料産品提供商也在其産品中在添加機器學習和人工智能(AI)的功能,以使資料管理過程能夠自我配置和自我調整,這樣可以讓技術人員專注于更高價值的工作。

這裡舉兩個中繼資料增強型資料管理的例子。

一個是關于中繼資料的生成自動化,通過人工智能進行大規模的自動化資料标記及分類。另一個是關于中繼資料的智能應用,去年年中跟麒麟交流時,麒麟就提到它現在可以基于使用者使用麒麟的記錄檔(比如發現頻繁的次元)來自動優化CUBE的生成效率。

Gartner關于增強型資料管理的定義還是偏窄了一點,其實無論是阿裡的Dataphin(裡面一堆的智能化資料管理工具),還是我們自己研發了的DM,其實落地增強資料管理的殺手級應用。

話說回來,增強型資料管理是每個有志氣的資料運維團隊都該幹的事情,增強型資料管理也是每個企業提升資料管理的必然要求,Gartner給了高大上的名字,挺好。

趨勢6:雲成為必然

到2022年,公有雲服務将對90%的資料和分析創新起到至關重要的作用。随着資料和分析的上雲 ,資料和分析上司者仍然很難實作服務與用例的協調一緻,這就增加了不必要的治理和內建開支。資料和分析問題的關鍵,已經從某項服務的成本轉為如何在定價之外滿足工作負載的性能要求。上雲時,資料和分析上司者需要優先處理能夠利用雲能力和專注于成本優化的工作負載。

雲數融合演進的最大優點是使用者不用再操心如何維護底層的硬體和網絡,能夠更專注于資料和業務邏輯,在很大程度上降低了大資料技術的學習成本和使用門檻。比如阿裡雲的數加産品就是生于雲上的,這對于中小企業有很大的意義,它們不再需要建構資料倉庫等基礎設施。

信通院2019年釋出的《大資料白皮書》也提到了雲數融合:“大資料基礎設施向雲上遷移是一個重要的趨勢。各大雲廠商均開始提供各類大資料産品以滿足使用者需求,紛紛建構自己的雲上資料産品。比如國内阿裡雲的MaxCompute、騰訊雲的彈性MapReduce 等,大規模可擴充的資料庫服務也紛紛上雲......越來越多的大資料産品從設計之初就遵循了雲原生的概念進行開發,生于雲長于雲,更适合雲上生态。"

由于安全等諸多原因,自己沒有資料上公有雲的經驗,是以不清楚公有雲提供資料分析的挑戰具體在哪裡,按照Gartner的說法,似乎現在資料分析上雲碰到了适配的問題。

也許問題可以轉換下,為什麼在私有雲領域,我們沒有采用網際網路公司提供的資料産品解決方案?

道理也簡單,資料自帶行業屬性,比如阿裡的資料産品肯定更适用于零售行業,因為有電商的基因,但假如要做成各個行業都适用的,就會碰到水土不服的問題。

比如很多企業主資料是個核心問題,但對于電商也許就不是,是以其在相關資料分析能力的提供上就會有所不足,另外對内的産品一旦要轉為對外銷售,改造的代價是很大的,因為外部客戶的要求更苛刻,遠沒有内部客戶那麼好将就。

趨勢7:資料和分析的碰撞

資料管理能力和分析能力在傳統上被視為不同的領域,需要分别進行管理。利用增強分析提供端到端工作流的供應商使這兩個市場之間的界線變得模糊了。資料和分析的碰撞将增加這兩個傳統上相對獨立的領域之間的互動和協作。這不僅會影響到所提供的技術和能力,還會使支援和使用它們的人員和流程受到影響。相關角色也将從傳統的資料和分析擴充到資訊探索人員和公民開發人員等。

增強分析通過機器學習、人工智能、可視化等技術的應用,能夠幫助普通使用者在沒有資料科學專家或 IT人員協助的情況下,通路有效資料,并對理論和假設情況展開測試與驗證,進而為分析計劃帶來更多自動化功能以及創新洞察力。

我們在10年前就鼓勵業務人員能夠自力更生,提供了各種取數的環境和自助BI的功能,努力降低業務和IT的之間的協作成本,現在資料中台可以說是增強分析的催化劑,資料湖使得資料管理和資料分析融合的趨勢越加明顯。

廣義的講,所有幫助非專業人士直接操控資料進而進行高效分析的手段,都可以叫做增強分析,正如機器學習的平民化一樣,資料技術正千方百計的降低資料分析的門檻。當然增強分析要成功,取決于企業的發展階段和擁有的資料文化,傳統業務人員不太願意改變,增強分析也就打了大的折扣。

趨勢8:資料市場和交易平台

到2022年,35%的大型企業機構将通過正式的線上資料市場參與資料交易,而這一比例在2020年為25%。資料市場和交易平台為整合第三方資料産品和降低第三方資料成本提供了統一平台。

資料市場和交易平台不是新東西,也談不上趨勢,這幾年更沒看到突破性的進展,即使是企業與企業間的資料交易也是舉步維艱,2022年35%的比例更是扯談吧,需要先解決相關法律法規問題。

但多方安全計算和聯邦學習為打破資料孤島提供了一種更為現實的解決方案,我們也在積極推進,這個顯然比商業化的資料交易現實多了。

趨勢9:區塊鍊技術在資料和分析中的應用

區塊鍊技術解決了資料和分析領域中的兩項挑戰。首先,區塊鍊提供了資産和交易的完整沿襲。其次,區塊鍊為複雜的參與者網絡提供透明度。除了有限的比特币和智能合約用例之外,分類賬目資料庫管理系統(DBMS)将為單個企業審計資料來源提供了更具吸引力的選擇。Gartner預計,到2021年,分類賬目DBMS産品将取代多數許可區塊鍊的使用。

區塊鍊能對資料追根溯源,并且對所有人透明開放,有了區塊鍊的加持資料的流轉更有安全保障,這是不言而喻的。

下面解釋下分類賬目。

分類賬通常用于記錄組織中的經濟和金融活動曆史,例如,跟蹤銀行交易中的信貸和借記曆史,驗證保險索賠的資料沿襲,或跟蹤供應鍊網絡中的項目移動。分類賬應用程式的實作通常使用關系資料庫中建立的審計跟蹤來完成。然而,使用關系資料庫建構審計功能較為耗時,而且容易出現人為錯誤。它需要自定義開發,并且由于關系資料庫本身并非不可變,是以難以跟蹤和驗證對資料的任何意外更改。

區塊鍊是一個分類賬,按時間順序或“鍊”記錄發生在稱為“塊”的資料集合中的所有事件,其不可篡改等特性可以解決傳統分類賬的安全問題,但是,這會增加複雜性,因為需要建立一個包含多個節點的完整區塊鍊網絡,管理其基礎設施,以及在将每項事務添加到分類賬之前,要求節點對其進行驗證。

是以分類賬目DBMS産品被提出來了。

比如Amazon QLDB 就是一種完全托管的分類賬資料庫,其提供了一個透明、不可變、可以加密方式驗證的事務日志,無需建構類似分類賬應用程式的複雜開發工作。有了 QLDB,資料的更改曆史記錄就是不可變的(無法更改或删除),并且還可以使用加密技術,輕松保證應用程式的資料不會遭到意外修改。

我的了解是分類賬目DBMS産品是一種不可更改的高性能事務日志資料庫,采用更為安全的手段來管理風險較高的金融和經濟活動。

趨勢10:關系奠定了資料和分析價值的基礎

到2023年,圖譜技術将促進全球30%的企業機構決策過程的快速情景化。圖譜分析是指一系列用于探索不同感興趣的實體(如組織、人員和交易)之間關系的技術。它幫助資料和分析上司者找到資料中未知的關系,并檢視傳統分析技術不易分析的資料。

《華為資料之道》這本書提到了資訊架建構設核心要素,即按業務對象進行架構設計,業務對象是指業務領域中重要的人、事、物對象。業務對象承載了業務運作和管理涉及的重要資訊,是資訊架構中最重要的管理要素。

自己最近有個關于資料倉庫模組化的感悟,就是以前無論是次元模組化還是關系模組化,我們模組化的視角始終是以某個域的實體或流程為核心的,也就是更多是部門級的模組化,但對于企業來講,這種模組化的集約化能力是有限的,它無法産生企業級的生産力,比如它解決不了企業級長流程的效率問題。

未來,資料管理團隊需要具備企業級的長流程模組化能力,模組化首先要明确企業級的業務對象到底有哪些,這些核心對象貫穿了哪些企業核心流程,然後才能針對性的分析,進而提升整個企業的經營運作效率。

比如供應鍊涉及了規劃、投資、采購、合同、工程、存儲、物流等流程,裡面的核心業務對象包括物料、合同等等,而要建好這些跨流程的模型,用對象資料庫(比如圖資料庫)分析對象和關系是合适的,有了對象資料庫,我們不再需要人為的去打造寬表。

以營運商的寬帶分析為例,以前B域隻管寬帶受理,M域管采購合同,O域負責資源管理,你會發現這三個域的分析可能是割裂的,比如采購了100萬的分管器端口,但寬帶帶受理隻有50萬,也許采購的東西還在閑置,或者用在了其它地方,但這些業務、資源和投資的關聯分析誰來做呢?

如果我們無法以寬帶為對象進行端到端的分析,站在全局的角度來看問題,就難以保證企業投資的效益。

最後我要說,聲望是個好東西,你看Gartner一發表趨勢,大家不明覺厲紛紛轉載,而且冒出了一堆的新詞,無論是增強分析、增強管理、決策智能、X分析等等,其實它說的東西并不是最新的,很多我們也早在實踐了,但的确需要有組織來總結、提煉和分享,自己研讀了之後也受益匪淺。

繼續閱讀