天天看點

靈活大資料與靈活 AI

--------點選螢幕右側或者螢幕底部“+訂閱”,關注我,随時分享機器智能最新行業動态及技術幹貨------------

前言

人工智能的誕生可以追溯到上世紀 50 年代,在達特茅斯會議上,麥卡錫提出了 AI 的概念,但在初期的熱度過後,人工智能的發展經曆了多次低谷,直到從 90 年代中末期開始至今的這近二十年的時間裡,人工智能才真正迎來了黃金時期。

尤其是在近 10 年來,各方面因素都推動其不斷發展:

  • 理論上,機器學習,尤其是統計學習和神經網絡理論不斷突破,效果顯著;
  • 外部環境上,軟硬體技術的進步為人工智能模型的實作提供了足夠的計算能力;
  • 此外,極為重要的一個因素就是在資料方面,大資料技術的發展使人工智能終于擺脫了資料的桎梏,可以在充足的樣本基礎上提升模型的能力。

可以說,現在各領域智能模型的研發絕大多數都離不開大資料技術的支援。

反過來看,人工智能對大資料技術同樣有着極為重要的作用。一方面,對于利用大資料技術收集到的資料需要通過一些智能分析過程才能發現其中的價值;另一方面,通過對已有資料的智能分析,我們可以推導出更多的資料特征,甚至進一步指導資料生産的方向。是以在今天我們談起大資料的利用,都不可避免地涉及到人工智能、機器學習等概念。

靈活大資料平台棧作為一個實時資料基礎設施平台,是對大資料理論與技術進一步發展的成果,自然也會有對智能化方面的研究與布局。靈活大資料智能化的主要目标就是,結合靈活大資料實施理念,研發靈活的、輕量化的智能模型,并在靈活大資料平台上對資料流進行實時智能化處理,最終實作一站式的大資料智能分析實踐。

為實作上述目标,我們對人工智能、機器學習、實時運算等技術,以及相關業務領域知識,乃至産品使用者體驗都進行了深入的研究與分析,本系列文章将把我們的理念和在上述過程中所獲得的一些經驗、成果與大家分享。

實時資料智能處理

如本平台之前一系列文章所述,随着技術的發展,我們能夠獲得前所未有的海量資料,如果能夠快速、高效地對這些資料進行處理,發現其中的高價值資訊,無疑可以極大提升企業的應變能力,進而在複雜且易變的業務場景中迅速地做出戰術乃至戰略上的調整。

是以,實時資料處理已成為未來大資料技術發展的主要方向。資料處理的實時化必然會對與資料緊密相關的智能分析模型造成影響,可以說,為了快速識别、适應外部環境的變化情況,各組織已經開始将資料實時處理能力與 AI 能力相結合,實作智能資料分析業務的快速傳遞。

實際上,針對實時資料流的智能化處理技術已經在很多行業中得到了先驗。例如在網際網路直播領域,基于視訊流的實時濾鏡、實時特效算法已經在快手、抖音等衆多 APP 中普遍使用,而國外的 Twitch 等直播網站,也推出了實時遊戲資料分析等 AI 插件來增強直播效果;在體育資料領域,基于實時賽況的球隊、球員資料統計分析和賽況走勢預測也在各體育資料提供商處,如 Opta Sports 等,得到了應用;在交通領域,基于實時交通資訊的路況擁堵預測系統也已經開始實施。此類例子不一而足,但都反映了實時 AI 資料處理已經在不同領域、不同業務場景下得到了廣泛應用,并且發揮了不可取代的作用。

在金融領域的許多場景中,對于實時 AI 資料處理同樣存在有衆多需求,如實時風控、實時資料預測、實時異常檢測、實時使用者分析等等。下圖為實時産品推薦的一個資料流圖,可以用于金融産品推薦場景中,例如網貸、保險、基金、股票等産品。

靈活大資料與靈活 AI

該圖描述了如下過程:在互動端我們可以通過埋點獲得大量的、不同使用者的行為資料,這些資料将被企業實時資料平台采集,與使用者、産品及其他資料一起提供給計算層的各類模型,如使用者興趣模型、産品畫像模型等。這些模型對使用者和産品進行特征刻畫,最終提供給推薦模型計算、排序、過濾得到最終的推薦清單。

這一過程中我們可以根據采集到的實時使用者行為資料流對使用者興趣模型進行更新和校正,進而實作對使用者所感興趣内容的實時追蹤。上圖沒有展現的一個過程是對産品畫像模型的實時更新,盡管相對使用者的行為資料而言,産品的特征資料相對穩定,但在實際當中還是有不少産品對時效性要求很高,其畫像特征也需要我們進行實時的維護,例如證券市場的資料資訊等。這些産品資料流可以通過其他管道彙總進入企業實時資料平台之中,并提供給産品畫像模型進行産品特征的重構,最終提供給推薦模型進行産品推薦。

一個好的實時産品推薦系統可以靈敏捕捉使用者的需求、響應産品的變化,可以高效地針對使用者開展個性化精準營銷,提升使用者體驗度的同時還能夠提高獲客和關單數量,産生巨大的業務價值。

在上圖中企業實時資料平台扮演了為推薦模型提供實時資料的重要任務。在一個靈活的資料環境中,靈活大資料就平台可以很好地支援上述工作,一種實作架構如下圖所示:

靈活大資料與靈活 AI

在該圖中,dbus 和 wormhole 可以友善對接多種不同資料源,實時擷取資料,将資料 pipeline 源頭實時化。另外 wormhole 支援流上處理,很适合接入産品畫像模型和使用者興趣模型對産品與使用者的特征進行實時刻畫,這些特征經過存儲後由 moonbox 根據需要進行抽取,輸入推薦模型得到需要的推薦清單,最終傳回給互動端。

此外,如果加上 davinci 資料 BI 的支援,我們還可以輕松地實作實時業務名額監控,便于我們對推薦效果進行評估。整個過程靈活、便捷地整合了多種不同開源平台以快速搭建實時資料應用,還可以根據需要随時切換開源選型,支援快速疊代試錯,結合已有的算法模型就能夠迅速支援實作智能使用者産品實時推薦這一場景。

靈活 AI

如前文所述,在實時 AI 資料處理過程中,基于靈活大資料的各項業務元件,結合第三方的開源構件,通過簡單配置即可快速編排、靈活地實作算法運作的底層支援架構。

這使得整個系統中看起來唯一的麻煩之處在于我們還要事先開發好各種智能模型,這對于一些業務組織來說還是有一定的技術門檻;此外對于某些業務來說,快速推進和成本控制才是首要考慮的因素,那麼針對性地定制化開發智能算法模型,并調整調用接口使之可以接入實時資料架構之中,就顯得比較笨拙。例如很多資料分析的業務人員,也許不需要太過精準的模型性能,但最好能夠保證分析系統實施的便捷性、業務邏輯實作的迅捷性。

我們已經讓資料處理變得靈活,那麼如何将資料智能也變得更加靈活呢?為了解決這一問題,我們提出了靈活 AI 的實施思路,即在現有靈活大資料産品的基礎之上,基于業務場景設計開發一系列可插拔的實時智能模型算子,這些模型涵蓋了業務場景内常見的智能化資料分析需求,具有較強的通用性和複用性,能夠無縫接入靈活大資料平台上的實時資料流并向平台輸出分析結果,根據需要實時流入各業務端,最終實作基于實時資料流的智能分析過程。

在靈活大資料産品和靈活 AI 的支援下,業務人員可以根據業務場景快速建構從實時資料處理平台到實時資料智能分析,再到實時資料展示的整個智能化資料治理流程,并可根據效果靈活調整試錯,極大降低實時智能化業務分析的實施成本。

在上述靈活 AI 的實施思路下,我們着手建構靈活 AI 算法庫,這是一套基于業務領域劃分的輕量級通用資料模型集合。其中的每個模型的設計應該遵循以下原則:

  • 輕量級,對模型複雜度進行适當的控制保證資料處理的實時性;
  • 獨立性,盡量減少環境依賴或保證環境的部署獨立性,避免由模型引入給系統整體帶來的環境依賴變動;
  • 單一性,各模型功能盡量單一,保證各模型功能的平行性;
  • 資料普适性,除部分模型存在一些必需的特征外,各模型應保證對接入資料的普遍适應能力,通過一定的配置或映射即可以适應絕大多數的業務場景。

為了實作上述要求,我們在研發模型時将不可避免地在某些方面做出一些取舍,例如模型若想通用必将會導緻性能的一定程度下降,如何在這些沖突中尋求一個合理的折中,也是在設計時需要考慮的問題。目前,我們已經針對一些領域開始研發靈活 AI 模型,經過實際測試與應用後,不久的将來就将整合進現在的靈活大資料産品棧中。此外,在未來我們還可以公布相關接口和規約,讓使用者也有能力将自己的模型加入到庫中。

結語

實時資料的智能化分析是未來大資料技術和人工智能技術發展的重要方向之一,如何降低這一實施過程的經濟成本、時間成本、技術成本以及變更成本,是靈活大資料和靈活 AI 着重解決的關鍵問題。本文結合靈活大資料産品提出了一種解決思路,希望我們的産品能夠幫助各組織友善、快速、靈活地建構自己的實時大資料智能分析系統。

靈活大資料與靈活 AI

原文連結:

https://www.infoq.cn/article/NNBszCZjPISI3Zay2Cv7

繼續閱讀