天天看點

增強分析技術原理與實踐

增強分析技術原理與實踐
增強分析技術原理與實踐

文章作者:馬玥、丁建棟 阿裡巴巴

編輯整理:Hoh

内容來源:作者授權

出品平台:DataFunTalk

注:歡迎轉載,轉載請留言。

導讀:去年,增強分析 ( Augmented Analytics ) 與人工智能、量子計算、和區塊鍊等技術一起被 Gartner 評選為十大戰略趨勢之一,高調走入公衆的視線。Gartner 認為,增強分析将颠覆目前的資料分析模式,代表了資料和 BI 能力的第三大浪潮。在 Gartner 的分析與商業智能技術成熟度曲線上,增強型分析傲視群雄的處在"期望膨脹期"的最高點上,其熱度可見一斑。

增強分析技術原理與實踐

圖1 Gartner 相關研究

那麼,這大熱的增強分析到底是什麼?與傳統 BI 有何差别?将為業務帶來怎樣的影響?現在市場有哪些相關的解決方案?我們有沒有相關技術布局?我們查閱了相關文獻資料,并嘗試通過這篇文章去回答這些問題,希望能抛磚引玉,與大家一起學習、探讨。 

01

什麼是增強分析

增強分析的概念由 Gartner 在2017年提出,在 Gartner 當年的報告《Augmented Analytics Is the Future of Data and Analytics》中,給出了增強分析的定義:

"Augmented analytics is a next-generation data and analytics paradigm that uses machine learning to automate data preparation, insight discovery and insight sharing for a broad range of business users, operational workers and citizen data scientists.——增強分析是下一代資料和分析範式,它面向廣泛的業務使用者、營運人員和民間資料科學家,利用機器學習将資料準備,洞察發現和洞察共享等過程自動化。"

從 Gartner 這個定義看來,在概念提出之初定義還是很模糊和寬泛的,在之後的兩三年,Gartner 也在不同的報告中圍繞這一概念做了許多的讨論。我們對其中的觀點進行了總結,從三個角度來看增強分析相較于傳統資料分析到底"增強"在哪裡。

從資料分析的流程而言,資料分析的過程可以抽象為三個階段:

  • 資料準備
  • 洞察發現
  • 結果共享

增強分析的重點在于提高這一流程的易用性 ( 無代碼化 ) 和自動化程度。如下圖所示,在資料準備,增強分析通過自動化幫助我們加速一些耗時耗力的工作;在洞見發現階段中,自然語言查詢将優化人機之間的互動方式,而自動化洞察能夠幫助我們及時的發現資料中的規律和變化,原本複雜的模組化也被自動化模組化過程取代;此外,在結果的展示方面,自然語言生成、自動化報表等技術也大大降低了資料分析的門檻,催生出更多的"民間資料科學家"。

增強分析技術原理與實踐

圖2 資料分析流程變化[1]

從資料分析中各角色的分工而言,增強型分析帶來的變化非常顯著。從下圖可見,增強分析在賦能資料分析人員,進而為 IT 人員減壓。資料分析人員可以把控的事情變得更多,以前可能需要 IT 技術人員提供的支援,現在資料分析人員自己就能按具體需求操作。這樣的變化将帶來業務流程的效率大幅提升,也避免了需求傳遞造成的資訊偏差。

增強分析技術原理與實踐

圖3 資料分析角色任務變化

從資料分析的層次而言,之前 Gartner 曾定義了資料分析的四種能力,如圖4。傳統的資料分析主要關注于利用統計學方法給出描述性分析和診斷性分析。而對于預測性和處方性分析,之前則必須在資料科學家的幫助下才能完成。随着資料模組化的過程不斷自動化,基于資料挖掘模型的資料分析能力将越來越普及,也就是說我們能夠輕松的做更多的預測性分析和處方性分析,企業對資料認識的整體能力也将不斷加強,資料的價值也将被更大程度的釋放。

增強分析技術原理與實踐

圖4 資料分析的四種能力

總結而言,增強分析并不是一種技術或是一個産品,而是一系列的技術和方法,其目的就是為資料分析提效和降低資料分析的門檻。這其中包含的很多技術其實已經問世多年,而 Gartner 為他們取了個酷炫的名字以後,就成功将他們推向了風口浪尖。值得一提的是,"商務智能"這個古老的概念也是由 Gartner 提出的。

02

關鍵技術能力

對增強分析的概念有了基本的認知之後,我們來看看增強分析具體包含了哪些技術能力。結合 Gartner 的分類,我們可以将增強分析相關的技術分為了三類:增強資料準備、增強資料分析和增強資料挖掘。

1. 增強資料準備

準備資料通常是最耗時的工作。這裡的資料準備不僅包含所謂的 ETL 或者 ECTL,通常包含有資料探查、資料品質、資料協調、資料模型、資料清洗、資料聚合,中繼資料管理,以及資料編目等工作,涵蓋了資料管理的各個方面,甚至向前延伸到資料內建和資料湖的管理。

增強資料準備通常從兩個方向着手加速以上過程:

  • 可視化互動:通過類似 Excel 的界面以及托拉拽式的操作方式實作可視化的資料配置、資料源的混合以及資料清洗工作,讓資料準備變得"無代碼化"。
  • 算法輔助:利用機器學習和 AI 技術來自動化上述的部分流程。例如,自動的查找資料之間的關系,對資料品質進行評估,推薦用于連接配接、豐富、清洗資料的最佳方法,還有自動查找中繼資料和血緣關系等功能。例如下圖中,Paxata 平台自動找到了兩張表最佳的 join 方式。
增強分析技術原理與實踐

圖5 Paxata 提供智能資料連接配接

顯然,攻克資料準備這一瓶頸将大大提升分析的效率,從2012年前後,市場上開始出現專注于資料準備的供應商,包括 ClearStory Data、Datawatch、Paxata、Trifacta 等公司。近兩年,許多 BI 平台和資料科學平台廠商也都在将增強資料準備作為重點提升方向。2018年,CAE 仿真平台廠商 Altair 宣布收購 Datawatch;2019年,專注于 AutoML 的資料科學平台 DataRobot 将 Paxata 納入麾下;除了資本運作,更多的大廠也在優化自己産品的資料準備功能,例如 Tableau 推出的 Tableau Prep ( 如下圖 ),PowerBI 推出的 Power BI Premium 都提供了簡單直覺的自助式資料準備功能。

增強分析技術原理與實踐

圖6 Tableau Prep 圖形化界面

目前,圖形化的操作界面似乎已經被習以為常了,但是,針對資料準備目前能夠提供的算法輔助功能還是散點式的,雖然互動式界面使得使用者操作資料不再依賴代碼,但整個過程仍需要人工大量的參與,相信這一領域仍有很大的發展空間。

2. 增強資料分析

與資料準備思路類似,我們也可以将增強資料分析相關的技術按照其業務應用目标劃分為了易用和智能兩類。易用類技術幫助資料分析的使用者無需模組化和編寫算法,而是通過可視化和對話界面來研究資料,大大提高了資料分析的可用性;而智能類技術在幫助使用者自動尋找資料規律,将相關結果自動的轉化為可視化表達,提高分析的效率。

① 易用性

易用類技術主要包含了自然語言查詢 ( Natural Language Query,NLQ ) 和自然語言生成 ( Natural Language Generation,NLG ) 兩個方向。

自然語言查詢 ( NLQ ):

自然語言查詢是指使用者直接在搜尋框輸入或通過對話的方式查詢資料。想要将使用者的問題與資料表中的資料對應上,NL2SQL ( Natural Language to SQL ) 技術就是其中的關鍵。舉個例子,使用者可能會問「特斯拉的車總共賣了多少輛?」,通過 NL2SQL 就會将其轉化為相應的 SQL 表達式是「SELECT SUM(銷量) FROM TABLE WHERE 品牌=="特斯拉";」。NL2SQL 這一任務的本質,是将使用者的自然語言語句轉化為計算機可以了解并執行的規範語義表示,是語義分析 ( Semantic Parsing ) 領域的一個子任務。

在深度學習方法流行之前,這一領域的解決方案主要是通過高品質的文法樹和詞典來建構語義解析器,再将自然語言語句轉化為相應的 SQL,例如 Google 2017 年提出的 Analyza 方法[2],Sen 等人提出的 NLIDB 方法[3]。這類方法都具有類似的架構,以 NLIDB 為例,通過 Evidence Annotator 按照規則對查詢語句進行分解,而後通過多步的"組裝"拼接成 SQL 語句。

現在的解決方案主要是深度學習與 SQL 特征規則相結合的方法。

增強分析技術原理與實踐

圖7 NLQ方法NLIDB[3]系統架構

近幾年在學術界和業界這一領域都得到了廣泛的關注,Salesforce、斯坦福、耶魯等機構提出了 WikiSQL、WikiTableQuestions、Spider、SParC 等大規模資料集,并得到多次評測結果的送出。其中,Salesforce 于2017年提出的 WikiSQL 資料集是目前規模最大的有監督資料集。在這個資料集上,SQL 執行結果的準确率目前已經突破90%。但 WikiSQL 資料形式過于簡單,隻支援最基礎的 SQL 語句,而聚組、排序、嵌套等其它衆多常用的 SQL 文法都不支援。這樣的資料集并不符合真實的應用場景。相比之下,Spider 等資料集更貼近于真實應用場景,支援幾乎所有 SQL 文法的用法,而相關的評測各項名額還都很低。如何應對複雜的 SQL 語句仍是非常值得探索的方向。

NLQ 技術在産品形态上主要有兩種,搜尋式和對話式:

  • 搜尋式類似于搜尋引擎,使用者輸入感興趣的分析目标,系統将輔助使用者進行查詢條件的細化,而後自動将結果進行圖形化展示。搜尋式的代表産品就是2019年闖入 BI 魔力象限 Leader 梯隊的黑馬 ThoughtSpot,它的 slogan 就是"Search & AI-Driven Analytics",從2012年誕生之初,它就是使用搜尋作為通路資料的主要界面,這種設計就意味着其面向的最終使用者是普通業務人員而不是分析師,較低的使用門檻為它快速積累了大量客戶。目前主流BI大廠都基本能夠支援搜尋式的資料分析。
  • 對話式資料分析主要是資料分析與對話機器人的結合形成的資料機器人,Qlik Insight Bot、QuickBI 的智能小Q、我們團隊開發的數小蜜都是此類的典型産品。資料機器人不僅可以以獨立産品存在,而且可以提供 PaaS 能力與其他機器人相結合,例如阿裡數小蜜機器人的能力就輸出到了阿裡店小蜜、阿裡内外小蜜、釘釘智能助理等諸多的場景。

自然語言生成 ( NLG ):

NLG 技術是将語義資訊以人類可讀的自然語言形式進行表達。根據輸入資訊的不同,NLG 又可分為:資料到文本的生成、文本到文本的生成、意義到文本的生成、圖像到文本的生成等。在資料分析中應用 NLG 主要是資料到文本的生成,它能夠将分析結果轉換為人類了解的清晰叙述,以幫助使用者更好的了解資料,講好資料故事。

與其他 NLP 領域類似的,在 NLG 技術發展的曆史過程中,主要包括基于模闆的 NLG 和基于神經網絡的 NLG 方法兩個階段。

Reiter 等人[4]将基于模版的系統進行了歸納總結,将 NLG 系統劃分為文本規劃、句子規劃、句法實作3個子產品。其中,文本規劃決定文本要說什麼 ( what );句法實作決定怎麼說 ( how );句子規劃則負責讓句子更加連貫。在該架構下,針對不同子產品,若幹基于統計的模型被提出。

增強分析技術原理與實踐

圖8 典型的三階段式 NLG 架構[4]

近幾年,基于深度學習的 NLG 方法也層出不窮。在今年2月份,微軟公布了史上最大的語言生成模型,Turing-NLG,擁有170億參數量,可以說是超級龐然大物。基于神經網絡的方法又分為基于神經機器翻譯 ( Neural Machine Translation ) 的方法和基于神經語言模型 ( Neural Language Model ) 的方法。前者将基于結構化資料的文本生成任務視為一個翻譯任務,即輸入的源語言是結構化資料,輸出的目智語言是文本[5];後者則主要是将以 bert 為首的大量預訓練模型應用到了 NLG 任務中。

對比基于模闆的方法和基于深度學習的 NLG 方法,基于模闆的更可控,但是結果較為生硬、死闆,而且後期擴充對初期規劃依賴較大,常用于天氣預報、财報、新聞等場景;而基于深度學習的端到端方法可以更好的生成創意性、個性化、娛樂性等文本,但是效果不可控或者難以控制,目前的研究方向主要是将兩者進行融合。這一領域的另一個挑戰來自于資料,一方面,不同應用場景中的文本要求差異很大,現在能夠用于訓練的資料集仍然不夠豐富;另一方面,data2text 任務的訓練資料需要大量資料到文本的映射,收內建本很高。這就限制了需要大量訓練資料的深度學習模型發揮出更好的效果。

而在産品應用方面,BI 平台目前對 NLG 的應用還比較簡單,例如下圖 Tableau 的 Expain Data 中的 C 區域,就是對結果的簡單解釋。想必其背後應該是一套基于模闆的方法,随着分析人員對自動化報告的要求越來越高,這一領域 NLG 的應用也會不斷深入,不知道未來BI能不能自己幫董秘們寫出一份慷慨激昂的董事會發言稿。

增強分析技術原理與實踐

圖9 Tableau Expain Data 界面

② 自動化

另一個方向就是自動化,自動的幫助使用者完成資料分析中的一些過程。這裡典型的技術包括自動洞察 ( automated insights ) 和自動可視化 ( automated visualization )。

自動洞察:

自動洞察,也叫主動洞察,是增強分析的核心功能,但同樣也是一個寬泛的概念。現在大部分的主流 BI 平台都有自動洞察的相關功能推出,且方向各有不同。自動洞察的目标就是代替一部分分析師的工作,從資料中發現潛在資訊和價值。從任務目的的角度劃分,主流的技術有以下幾個方向:

  • 發現關聯:比如分析 GMV 關聯因素,可能涉及到訂單量、金額、人數、産品類型等多種因素,通過自動洞察可以在分析高費用收入時,找出哪項因素對高費用影響最大。傳統的名額解釋常常需要資料分析師依靠業務了解和經驗對資料名額進行拆解,找出影響因素。而自動洞察則能夠自動完成這一過程。圖9中的 Tableau 的 Expain Data 就是通過建構貝葉斯模型評估各個資料項對目标值的影響大小,而後通過圖表的方式給出了對目标值影響最大的資料項分布,引導使用者進一步探查。
  • 發現異常:自動的發現資料異常,不再依賴于規定固定的門檻值。這個領域在學術界應該是個古老話題了,在此就不做贅述。
  • 自動聚類:聚類是一種典型的無監督學習,可以自動的将樣本分成若幹組,是以也被認為是一種自動洞察能力。

現在學術界和 Google、微軟等大型科技公司都在自動化 insight 推薦方面走的比較遠,且方向各有不同。以微軟的 PowerBI 為例,其推出的"快速洞察" ( Quick Insights ) 功能能夠自動對于源資料做出各種交叉的一階或者多階計算 ( 百分比,排序,同環比 ),進而挖掘資料内部各種趨勢,顯著點等洞察,同時發現資料之間的相關性、資料内的異常點、時序資料的趨勢以及周期性變化規律等等,并進行可視化呈現。

增強分析技術原理與實踐

圖10  PowerBI 快速洞察功能

自動可視化:

自動可視化的概念就非常直覺了,就是根據你的資料結果自動的選擇可視化的方式進行展示,以清晰的展現資料分析結果。自動化報表與自然語言查詢、自然語言生成等技術配合,将大大加快整個分析流程,對前台業務人員十分友好。

但這同樣是個很大的話題,資料可視化畢竟不是選擇用柱狀圖還是折線圖展示這麼簡單。它大概可分成兩個層次:

  • 自動化圖表:無需使用者操作直接生成圖表,根據圖形文法、圖表配置映射等方式将圖表渲染出來
  • 自動化報表:自動生成報表,參考分析目的和圖形樣式等方面來生成報表布局、配置控件、圖表關聯等

如果把可視化比作是一種資料到設計的翻譯,那麼好的可視化也需要做到"信達雅"。生成的資料表不僅要能被看懂,還要美,還要能互動,更高的要求是能夠幫助使用者講好故事 ( storytelling ),比如直接生成 deck 或者海報。

在學術領域,自動化圖表技術可以分為兩類,基于規則的方法和基于機器學習的方法[6]。基于規則的方法依賴于預先設定好的規則庫,這種方法的效果非常依賴于規則庫的品質,也缺少靈活性。另一類方法則是将問題轉化為了分類或排序問題,而後訓練相應的模型,例如将一種可視化方案分類為"好"或"壞"。這其中,如何刻畫源資料的特征和可視化圖表的特征是相關研究重點讨論的問題。

在産品方面,基礎的自動化圖表已經有許多主流BI廠商提供,一些開源的軟體也有着不錯的支援,例如 AVA,Rath 等等。感興趣的同學可以關注一年一度的可視化領域頂級會議 IEEE VIS,每年都會有有意思的方法、工具出現。

3. 增強機器學習

既然前面已經談過了資料準備,這裡談到的機器學習就更加純粹的關注于模型本身,比如特征工程、模型訓練、模型部署、模型解釋以及最後的模型監控和管理。與增強資料分析相比,增強機器學習面向的更多是資料科學家,通過算法将特征工程、模型選擇與超參數優化,以及深度神經網絡結構搜尋等機器學習過程中的關鍵步驟自動化,幫助資料科學家更高效的得到滿意的模型。許多 BI 平台都提供嵌入的機器學習模型,例如預測、聚類等,其中将許多之前必須資料科學家來做的工作變成了自動的流程,使得資料分析師或者業務人員也可以通過圖形化界面完成,這就大大釋放了資料科學家的精力。

這部分的核心技術就是近幾年大熱的自動機器學習 AutoML。早期的 AutoML 研究起源于 Meta Learning,早在上個世紀八十年代就被提出,數十年間在機器學習領域的相關研究主要集中在超參優化。近年來随着深度學習的廣泛應用,Meta-Leaning 領域在學術界又一次升溫。同時,自動化特征工程、自動化模型評價等技術的研究和商業化也使得 AutoML 的概念覆寫到了機器學習的全流程。

增強分析技術原理與實踐

圖11 AutoML 應用于機器學習全流程[7]

AutoML 要解決的問題主要是釋放機器學習過程中的人力投入。從提升技術生産力的核心環節角度看,AutoML 覆寫的領域可以分為三個方向:

① 特征工程:

特征工程在機器學習中都有着舉足輕重的作用,同時也非常考驗資料科學家的能力。在 AutoML 中,自動特征工程的目的是自動地發掘并構造相關的特征,使得模型可以有最優的表現。特征工程可以分為特征生成、特征選擇、特征編碼等步驟,而其中的小步驟是非常繁雜的(做過的人應該深有體感~),是以這部分的政策和技術方法也是非常多樣的,在此就不做贅述了。常用的工具包括 Tsfresh、Trane、Categorical Encoding、boruta_py、Featuretools 等等。

② 機器學習 ( 模型選擇與超參優化 ):

這部分主要面向傳統的機器學習,在訓練過程中需要選擇模型,設定模型的參數,這是早期的研究重點,也是目前産品化的主要方向。現有的平台基本上都是預定義一系列模型,比如預定義20種不同的模型,在試每個模型的過程中給這些模型選擇參數。選擇參數比較常見的做法是将調參和訓練分離開,調參過程給訓練過程建議一組或多組參數,訓練過程回報結果,然後調參過程根據回報結果産生下一組建議的參數。這個過程一直疊代直至滿足了終止條件。調參過程中比較常見的算法為網格搜尋,随機搜尋和貝葉斯優化等。

③ 深度學習 ( 網絡架構 ):

對深度神經網絡結構搜尋 ( NAS ) 問題的探索是近幾年最熱的研究方向。T.Elsken 等人[7]将該問題的研究歸納為三個方向:搜尋空間、搜尋政策和評價預估。

  • 搜尋空間問題旨在找到了一組網絡架構參數和對應的超參數,深度學習模型的性能由這組參數來控制和決定的,那麼問題就轉化成了對複雜模型的架構參數和對應的超參數進行優化。
  • 搜尋政策旨在設計更優的算法快速、準确找到最優的網絡結構參數配置。搜尋政策主要包括了增強學習、進化算法、基于梯度的算法等。
  • 評價預估類的政策是使用近似評估的思路解決大規模資料上訓練和評價過于耗時的問題,常用政策包括低保真資料集訓練模型,代理模型和參數級别遷移等。

2018年 Google 推出了一系列 AutoML 商業化産品 ( AutoNLP,AutoCV,AutoTranslation,AutoTable ),這一概念在業界也開始受到廣泛關注,之後 Amazon、Microsoft、Facebook、Uber 及很多創業公司都紛紛推出了自己的自動機器學習庫或産品。國内網際網路公司同樣推出了相關産品。阿裡雲機器學習平台 PAI ( Platform of Artificial Intelligence ) 是阿裡巴巴推出的機器學習服務平台,其中 PAI AutoLearning 自動學習是 PAI 推出的全新自動機器學習平台,支援線上标注、自動模型訓練、超參優化以及模型評估,在平台上隻需準備少量标注資料,設定訓練時長即可得到深度優化的模型。

03

資料機器人實踐

阿裡機器智能技術-智能服務事業部于2017年推出了創新産品資料機器人,以對話機器人形式提供多元資料查詢、智能分析、預警推送、資料可視化等多項資料智能服務。該項目開始之初,增強分析的概念還遠沒有現在這麼火,而現在看來,資料機器人正是增強分析的一個典型案例。

資料機器人于2017年10月在釘釘上首次上線,最初通過機器人平台的會話流和意圖配置提供客戶體驗領域的名額查詢。經過兩年多的業務發展,資料機器人已接入阿裡集團20多個 BU、100多塊子業務的資料,并且以 PaaS 化服務的形式接入到阿裡小蜜、釘釘智能助理、内外小蜜、雲小助等機器人執行個體中,提供個性化的資料查詢和分析服務。

增強分析技術原理與實踐

圖12 資料機器人應用執行個體

從功能而言,資料機器人主要功能特性都完美契合了增強資料分析的能力方向:

  • 對話式分析:基于分析意圖模型和多輪對話管理能力,實作靈活便捷的對話式分析請求和豐富資料展現。這一過程實質将 NLQ 和自動化報表串聯起來,自然語言轉 SQL,再将 SQL 結果集轉圖形,形成了"NL2SQL2Graph"的完整鍊路,同時利用 NLG 技術形成機器人對話能力。
  • 動态預警:借助資料機器人的動态預警能力,實作資料自動找人,将業務資料的異常波動主動推送到相關人和釘釘群,幫助業務部門及時發現問題并采取有效措施。
  • 智能分析:資料分析算法化,支援歸因、TopN、次元下鑽、時序預測等等算法,以及動态的操作推薦。
  • 智能洞察:具備時序異常檢測、因果關聯、波動歸因等主動洞察能力,自動的發現有用結論。這些都是自動洞察技術的典型應用,同時疊加 NLG 過程,為使用者自動的生成智能洞察報告。

資料機器人對業務場景的支援,有 PaaS 和 SaaS 兩種形式。通過開放的資料接入和機器人執行個體定制,可以高效實作業務定制的資料機器人。目前,資料機器人上公有雲的準備工作也在緊鑼密鼓的進行,不久後就能在雲上與更多的使用者見面,資料機器人的增強能力實踐,也将以系列文章對外發表。

04

結論:未來已來,将至已至

在2019年初,Gartner 在分析和商業智能平台魔力象限報告中曾作出預測:

  • 到2020年,增強分析将成為使用者部署資料分析、資料科學、機器學習以及嵌入式分析平台的主要推動力。
  • 到2020年,50%的分析查詢将通過搜尋、自然語言處理或語音生成,或者将由平台自動生成。

而身處2020年的我們,似乎并沒有對預測的結果有深切的體感。而在今年初,Gartner 做出了對增強分析最新的預測:

  • 到2022年,增強分析技術将無處不在,但隻有10%的分析師将充分發揮其潛力。
  • 到2022年,40%的機器學習模型開發和評分将在沒有把機器學習作為主要目标的産品中完成。
  • 到2025年,資料故事将成為最廣泛的消費分析方式,75%的故事将使用增強分析技術自動生成。

從字裡行間可以感受到 Gartner 對這一方向的信心。着眼主流 BI 平台和資料科學平台,近幾年的确都在這條賽道上蓄力,相信這些預測必然會實作。

正如前面提到的,增強分析旨在為資料分析提效和降低資料分析的門檻,而提升資料分析平台的易用性和自動化程度成為了發力的兩個主要方向。從三類增強分析的關鍵技術來看:

  • 增強資料準備,主要通過可視化互動實作全程的無代碼化,提升易用性,同時通過算法為部分流程提供操作的提示或建議。但由于資料準備的過程往往非常靈活且繁瑣,目前的算法輔助功能仍比較初級,距離真正的自動化仍有一段距離。而資料準備往往是整個資料分析流程中最耗時的工作,增強資料準備能力将成為未來BI平台吸引客戶的亮點之一。
  • 增強資料分析,正在不斷降低資料消費者使用資料的門檻,以提升企業使用資料的廣度。使用者通過自然語言進行查詢,系統自動的為其呈現圖表化的資料結果和文字的"資料解釋"。更進一步的,隻需選擇資料源,系統就能夠自動的産生一些有價值的洞見。這些能力将為企業普及資料思維,提升決策品質提供有力的工具。
  • 增強機器學習,則是将原本複雜的模組化過程變得自動化,很大程度上幫助了機器學習從業人員将想法快速便捷的應用、落地,将機器學習模型應用到更多的場景,以提升企業使用資料的深度。但這一領域仍面臨着算力要求高、優化時間較長等挑戰,加速整個學習過程将是增強機器學習進一步普及的關鍵。

當然,和諸多從技術成熟曲線上跌落的名詞一樣,當增強分析無處不在的時候,我們肯定也不再覺得它有什麼"增強"之處了,而是一種理所當然的存在,這個名詞也就會随之消失。

但值得一提的是,雖然增強分析一定程度上改變了目前的資料分析模式,讓我們離"人人都是分析師"的共産主義又近了一步,但是并不意味着資料分析師和資料科學家變得不再重要。相反,更多"民間資料科學家"的出現,将對資料科學家的專業能力提出更高的要求,既要站的高,更多的着眼于企業數字化轉型的大局對資料價值變現的體系進行設計,又要鑽的深,畢竟簡單題目别人的都會做了,留下來肯定都是硬骨頭了。是以,諸位資料分析和資料科學的小夥伴,前路漫漫,任重而道遠。

文章作者:

馬玥,博士,阿裡巴巴解決方案架構師。

丁建棟,博士,阿裡巴巴進階資料技術專家。

今天的分享就到這裡,謝謝大家。

如果您喜歡本文,歡迎點選右上角,把文章分享到朋友圈~~

社群推薦:

歡迎加入 DataFunTalk 資料科學交流群,跟同行零距離交流。如想進群,請識别下面的二維碼加逃課兒同學的微信,會自動拉你進群。

增強分析技術原理與實踐

參考文獻:

[1] Carlie Idoine, Cindi Howson, Rita Sallam. "Augmented Analytics Is the Future of Data and Analytics."  

https://www.gartner.com/en/documents/3773164. 2017.

[2] Dhamdhere, Kedar, et al. "Analyza: Exploring data with conversation." Proceedings of the 22nd International Conference on Intelligent User Interfaces. ACM, 2017.

[3] Sen J , Ozcan F , Quamar A , et al. "Natural Language Querying of Complex Business Intelligence Queries." SIGMOD ’19, 2019.

[4] Reiter and R. Dale. "Building Natural-Language Generation Systems. " Cambridge University Press, 2000.

[5] Mei H, Bansal M, Walter M R. "What to talk about and how? Selective Generation using LSTMs with Coarse-to-Fine Alignment. " Computer Science, 2015.

[6] Hu K Z, Bakker M A, Li S, et al. "VizML: A Machine Learning Approach to Visualization Recommendation. " arXiv: 1808.04819, 2018.

[7] T. Elsken, et al. "Neural Architecture Search: A Survey". arXiv:1808.05377, 2018.

活動推薦:

6位圖靈獎得主,數十位專家學者齊聚2020北京智源大會,免費報名還能抽獎,送周志華教授新書!(識别下方卡片中的二維碼免費注冊)

增強分析技術原理與實踐

文章推薦:

情感分析算法在阿裡小蜜的應用實踐

知識結構化在阿裡小蜜中的應用

這兒有一個社群在等着你哦!

繼續閱讀