天天看點

阿裡巴巴技術實踐:BI+AI技術的融合與應用

作者:資料猿
阿裡巴巴技術實踐:BI+AI技術的融合與應用

導讀:在商業智能(BI)走向成熟的今天,大模型技術的融入正在引發技術革新,為企業決策賦能。近日,阿裡雲智能集團瓴羊進階技術專家王璟堯,在DataFun舉辦的技術沙龍直播中,分享了BI與AI技術融合及其實踐——BI+AI技術爆炸下的發展趨勢、BI領域大模型在Quick BI的應用實踐,以及面向AI的技術架構設計和實作。

BI+AI技術爆炸下的發展趨勢

1、BI 市場演進趨勢

商業智能(BI)技術的演進從傳統BI到靈活BI,再邁入目前的智能化BI時期,曆經多重轉變。Quick BI作為中國領先的BI産品,已連續四年跻身Gartner魔力象限,顯著地代表了這一趨勢。靈活BI時代要求使用者通過直覺的互動如點選和拖拽進行操作,而智能BI旨在進一步簡化操作,通過引入類似智能助手的工具,以降低操作難度,提升使用者體驗。

阿裡巴巴技術實踐:BI+AI技術的融合與應用

(BI分析市場演進趨勢)

智能BI的發展正在被自然語言查詢(NLQ)、自然語言生成(NLG)、生成式分析和可解釋的人工智能等技術所驅動,預計在接下來的2-5年中,這些技術将成熟并加速智能BI的發展。特别是大模型技術在了解、歸納和生成自然語言方面的進展為BI引入了革新性的生成式分析體驗。正如Gartner所預測,到2025年,由于消費者體驗的改進,ABI的市場采用率有望首次突破50%,進而在更廣泛的業務流程和決策中起到決定性影響。

2、大模型發展現狀

過去一年多,大模型技術廣受業界關注,并展現了顯著的三大特點:更高的可控性、更廣的應用場景以及模型數量和品質的迅猛增長。

如ChatGPT之類,不僅改變了人們與機器的互動方式,還通過向量化資料、代碼和語言,重新定義了産品的使用和計算形态,使使用者能夠采用自然語言或代碼與産品進行互動,減少對傳統滑鼠操作的依賴。這些大模型的使用目的超越了簡單的文本生成,關鍵在于利用這些模型推動BI基礎設施的根本重構。

然而,大模型技術也不是無所不能,它們具有一定的局限性,比如未經訓練的大模型缺乏适應性,無法深層次了解業務邏輯變化,更不用說代替人類在業務了解和風險控制方面的複雜作用。

此外,大模型難免存在着一定的幻覺和惡意行為誘導風險。是以,當将大模型應用于BI領域時,特别需要關注模型在行業知識和産品知識方面的訓練,確定模型能夠基于特定客戶的行業場景語料資料加強對行業的了解,并與BI産品深度融合,如在報表配置、操作控件的選擇、資料的選擇等方面。

3、BI 領域産品形态探索

在商業智能(BI)領域的新時代,Quick BI積極開展對大模型技術的探索和 應用,推出了創新性的産品——智能小Q。它能夠通過了解使用者通過文字形式送出的分析需求,在掌握使用者上下文的基礎上自動識别意圖、分解任務并逐一執行。

智能小Q的開發利用了成熟的大模型技術,結合Quick BI對于BI業務的深刻了解,完成了針對BI場景的大模型訓練,并将其與強大的産品功能相結合,實作了BI與AI技術的有效融合。此外,智能小Q通過支援多輪問答和融入使用者回報及企業知識庫的方式,不斷增強其智能化程度。

阿裡巴巴技術實踐:BI+AI技術的融合與應用

(BI領域産品形态探索)

在産品和技術設計上,Quick BI的創新展現在兩個主要方向。首先,面向AI的産品鍊路方面注重于提供自由靈活的搭建方式、基于自然語言的資料洞察探索和卡片式的消費體驗。

其次,在面向AI的技術架構設計中,重點放在了開發以Agent為中心和全面采用指令化架構的技術體系上,這些設計不僅優化了産品的操作體驗,也極大地提高了業務流程的效率和智能化水準。通過這樣的探索和實踐,Quick BI展現了BI與AI結合的廣闊前景和深遠影響。

BI領域大模型在Quick BI的應用實踐

從應用角度去看,Quick BI大模型應用分為三層。

阿裡巴巴技術實踐:BI+AI技術的融合與應用

(Quick BI大模型應用分層)

第一層是領域模型層,相當于樹根。我們基于通義千問的基礎模型,經過BI專業知識微調,形成了自研的BI領域大模型。BI領域大模型實際上是在通用大模型的基礎上進行訓練的,從頭開始訓練并生成基礎大模型不僅需要消耗大量GPU算力資源,還需要大量通用資料,這對BI應用場景來說是不必要的,是以,Quick BI選擇基于通用千問的版本進行訓練,而不是從頭開始。在這個過程中,我們進行了哪些訓練,增強了哪些能力,将在模型架構層進行介紹。

第二層是Agent任務層,相當于樹葉的大枝幹。智能小Q作為使用者和BI系統的互動入口,用于了解和處理使用者意圖,然後分發到具體的垂直智能任務中。最常見的場景是搭建編輯報表,包括問答、閑聊和推薦。例如,使用者詢問2023年浙江省的簽單金額情況,系統可以識别出這是查詢類任務;如果使用者要求将圖表類型改為線圖,那麼這就是報表搭建類問題。

最裡層是垂直任務層,相當于樹葉的枝條,是應用層面的原子Agent任務。這些原子任務已經涵蓋了之前QBI已經具備的能力,如傳統的機器學習能力、洞察歸因、異常檢測、智能搜尋,以及為适配大模型而新接入的一些任務,如生成圖表、生成報表、配置修改和樣式美化。

下面将簡要介紹其中的四項:

1、輔助搭建

在創新的報表搭建實踐中,Quick BI已經從傳統的滑鼠拖拽操作模式轉型為便捷的自然語言指令輸入模式。使用者現在能夠簡單地通過文字輸入向系統下達建立圖表、編輯标題、甚至添加條件格式的指令。這一進步的驅動力來自于三大核心技術突破:精确定義的指令集,面向AI的指令化架構更新,以及靈活高效的agent編排。

指令集的定義為模型提供了與BI系統互動的明确文法規則,指令化架構的改造讓開發者得以實作深層次的內建,確定BI工程系統準确解讀模型的輸出。而agent的編排則保障了算子的有序執行,這些算子是建構大模型應用時的基石,涵蓋角色設定、prompt改寫、指令解析等任務。完成這些任務後,系統不僅能夠确定執行流程,還能夠基于使用者互動提供智能化的問題推薦。這樣的技術融合使得BI報表搭建變得更加智能化、直覺和使用者友好。

2、一鍵美化

“一鍵美化”功能緻力于将報表的視覺呈現提升至全新水準,為使用者帶來既簡易又高效的視覺設計體驗。通過對儀表闆進行巧妙的層次設計,分為負責色彩搭配的圖表層和處理背景及裝飾元素的氛圍層,使得每份報表都能在視覺上脫穎而出。

該技術能力主要包括四部分:

  • 首先,智能配色系統能從標明圖檔中抽取主色調,并運用先進的色彩聚類與比對技術以及可視化算法,為使用者量身定制多樣化的色彩方案,既提速了配色流程,又確定了視覺的吸引力;
  • 其次,立足于使用者體驗專家長年累月的實戰經驗,Quick BI總結了一系列圖表配置的最佳實踐,幫助使用者像搭配衣服一樣自由組合各種圖形配置;
  • 第三,應用LCH色彩模型而非傳統HSV模型,做到在色彩轉換時更精準地保持亮度和對比度,以實作整體配色的和諧與高質感;
  • 最後,Quick BI精準解讀字段資料的語義含義,進而智能比對到最合适的圖示修飾,確定每個細節都凸顯智能化技術的精巧與細膩。
阿裡巴巴技術實踐:BI+AI技術的融合與應用

(一鍵美化技術實作)

3、智能問數

第三項創新功能,智能問數,本質上展現了NL(自然語言)到SQL(結構化查詢語言)的技術轉換。這一功能賦予系統以自然口語的方式提出問題的能力,激發了在資料可視化、進階運算和靈活資料挖掘方面的潛力。

該過程緊湊且高效,包括四個步驟:

  • 首先是精準的意圖識别,配合細緻的安全過濾;
  • 緊接着根據中繼資料及部分資料特征對資料實體進行提取和召回;
  • 之後是知識庫資訊召回和模型prompt改寫,進而生成領域特定語言(Domain-Specific Language, DSL);
  • 最後實作BI系統對DSL的邏輯處理及資料源SQL方言的精準轉譯和圖表的動态渲染,以此完整地實作從使用者查詢到資料可視化的流暢轉換。

4、資料洞察

在探尋進一步的資料分析時,Quick BI結合了傳統統計算法和大模型來完成任務。資料洞察的真實力量在于其深度解讀圖表和補全資訊的能力,進而揭示資料背後的故事,并最終形成有力的資料驅動結論以指導實踐中的決策過程。它是一種基于曆史資料、行業内洞見和一系列相關資料集為參考,專注于識别和解析那些最具顯著性、對業務目标波動最具解釋力或提供深刻洞見的關鍵資料變動。

面向AI的技術架構設計和實作

1、面向AI的架構設計

系統架構設計的核心在于将使用者的自然語言指令轉化為機器可執行的代碼和技術邏輯,最終顯現為直覺的前端産品體驗。随着大模型的突破性增長,自然語言的指令能夠無縫轉化為代碼,進而與底層技術邏輯相連通。這整個流程的關鍵在于AI中間層的加入,它引入了一套标準化的結構化語言—領域特定語言(DSL)。這項創新確定了在BI領域中模型應用程式設計的精确性和效率。

系統基于Quick BI已有的産品能力開發,具有許多優勢,我們屏蔽了底層資料源的SQL方言,使得模型不需要關心三十多種語言的SQL類型;同時,它本身對接的是BI已有的能力,可以快速響應使用者的提問,支援進階分析和BI本身的意圖表達,比如年同比、環比,分組排序等;此外,還對接了強大的資料可視化能力,能夠展示各種圖表類型。

在工程架構上,進行了面向AI的指令化架構更新,包括會話層、指令系統、算子拆解、API層、渲染引擎和服務層。這裡複用了BI系統内成熟的基座,在能力層面将大模型的意圖了解與BI系統底層的渲染引擎、分析引擎進行編排和處理。

在開放層面,我們将系統内部的執行指令、流程控制、消息模型、取數邏輯等關鍵步驟拆解成原子API,供各個引擎組合式調用。QBI定義的這套架構标準不僅滿足系統内部需求,未來在合适的時機也具備開放出去的能力、被更多AI、甚至是外部系統調用。

阿裡巴巴技術實踐:BI+AI技術的融合與應用

(面向AI的架構設計)

2、BI領域大模型架構

在探讨BI領域大模型架構的過程中,我們不斷強調大模型的重要性。這裡産生了一個疑問:

為何我們必須開發BI領域的大模型?目前的通用大模型,例如GPT或通義千問等,真的無法掌握所有零散的知識嗎?

對此,我的回答是肯定的。系統運轉并非完全取決于模型本身,其效果的好壞是有一定邊界和合理性的限制。通用模型無法全面了解Quick BI内部系統的實作邏輯,即便它們對某些通用能力有一定了解,一旦系統更新至新版本,它們仍然無法掌握新的邏輯變化。

此外,通用模型也無法了解資料流轉的具體方式,更不會掌握客戶所在行業特有的知識。例如,對于“财年”這一概念,不同公司或行業有着不同的定義。這些特定的知識是大型通用模型所不了解的。

是以,為了使我們的模型能夠快速适應複雜的BI系統,并確定最佳效果,引入領域模型層是必要的。在針對特定場景執行任務時,我們并不需要模型具備過多的泛化推理能力,而隻需它以最低成本确定性地完成某一類特定任務。這時,AI Agent的架構應運而生。

這裡可以将此比喻為生産線上的勞工,他們不需要深究公司的戰略藍圖,而隻需專注高效完成配置設定給他們的具體任務;這裡的AI指令就類似于指派任務的監工。在實踐應用中,我們已經在内部實作了高效且穩定的大模型推理服務系列,并通過不斷的優化和自動化微調架構的建構,極大提升了資料訓練的效率。這種快速疊代的模式讓我們的産品保持領先,搭建意圖識别準确率已達到90%左右,而在調優之後,推理吞吐較調優前提高了至少200%,顯著增強了系統的整體性能。

3、架構分層和部署能力

實體部署架構主要分為兩部分:智能服務 和 BI基礎服務。

這兩個服務均支援作為SaaS(軟體即服務)提供,同時還可以在阿裡雲的VPC(虛拟私有雲)進行獨立部署,或在本地環境單獨部署。借助這種靈活的架構,使用者可以享受到算法訓練的便捷性,這部分工作完全由我們内部管理,使用者可以實作即開即用的産品體驗。此外,部署成本相對較低,線上推理的任務可以運作在A10顯示卡上,而基礎的BI服務隻需使用正常的ECS(彈性計算服務)即可。

在調用鍊路過程中,系統首先會對使用者的問題進行内容安全審查和過濾(該服務目前僅限于公共雲環境,若為獨立部署則需要使用者自行管理)。在大模型完成意圖識别、問題拆解和關鍵資訊召回等幾個關鍵步驟後,通過規劃路由到不同的Agent任務。以問數為例,路由至NL2DSL鍊路後,系統會對次元值、知識庫、中繼資料等資料召回,通過子agent生成DSL後解析成對應資料邏輯和渲染配置。

上面最重要的步驟是将使用者的語言通過BI領域模型,轉化成Quick BI分析服務可以了解的邏輯語言,并由分析引擎翻譯成對應的SQL方言和内置進階計算的算子執行,結果傳回後将通過多種圖表類型和豐富的配置展示,與使用BI工具的傳統拖拽操作無異。

内置的向量存儲系統會作為意圖了解的重要輔助會緩存必要關鍵資訊,包括知識庫設定、報表配置資訊、資料集中繼資料、關鍵次元枚舉值抽樣及操作上下文資訊等。舉個例子來說明使用上下文資訊的場景:例如在修改報表時,若使用者意圖将“銷售金額”字段修改為“全年銷售金額”,系統會先在使用者正在操作的圖表内尋找對應的字段進行修改。若定位不明,範圍可能擴大至整個畫布。存儲使用者上下文資訊有助于在整個指令解析過程中提高準确度,尤其是當某字段含有枚舉值時。如果大模型對這些枚舉值不熟悉,那麼在處理相關查詢時,準确率将受到影響,例如使用者詢問“原子筆的銷量”,如果模型不清楚“原子筆”屬于“産品”字段中的一個枚舉值,則會對結果準确性産生負面影響。

寫在最後

引入AI和大模型技術到BI領域并非盲目跟風,而是經過深思熟慮的政策。目前,瓴羊Quick BI成功将自然語言處理融入資料分析的全過程,提高了資料處理的智能化水準,使企業能夠以更低的成本和更高的效率獲得有價值的洞察,進而作出更加精準的業務決策。當我們繼續在這條智能化的道路上前進時,期待未來能夠解鎖更多的可能性,為使用者帶來更多創新的解決方案和服務,最終實作資料的最大價值轉化。

繼續閱讀