天天看點

「小樣本+AutoML」,改變算法生産的「核武器」?

「小樣本+AutoML」,改變算法生産的「核武器」?

碎片化場景,要麼定制算法,要麼改變生産模式。

作者 | 秀松

編輯 | 餘快

資料、算法、算力,被稱為AI的三駕馬車。

其中,資料對于算法模型的效果至關重要:以深度學習為核心的AI,為了避免發生過拟合或欠拟合的情況,需要使用大量資料來進行模型訓練,進而使模型達到更好的拟合優度,這對于解決場景問題無疑大有裨益。

不過,通過大量資料來訓練算法,從理論上看無懈可擊,但當AI走向落地場景,就不那麼容易了。

以資料問題為例:

對于碎片化場景,資料成了老大難。

1、很多場景不具備資料采集的條件,或者說采集資料成本太高。

2、資料是否有效,無效的資料除了百無一用之外,還會形成噪聲幹擾,處理起來也費時。

3、一些場景資料量不夠大,很難做到大樣本

沒有足夠量的資料,就難以訓練出好的算法模型,解決場景問題也就無從談起。

這實際上是産業數字化轉型面臨的重大難題之一:以人工智能為核心的數字化轉型,在實際場景落地時,由于技術使用的先決條件存在短闆,很難釋放對産業轉型的推力。

"從成本收益上看,在一些場景下,AI形如雞肋,無法解決實際問題,更無法降本增效。"

中科智雲CEO兼首席科學家魏宏峰告訴雷峰網-AI掘金志,數字化轉型趨勢下,隔行如隔山,整個市場需求都是碎片化的,這對AI而言提出了兩大挑戰:要麼做場景定制化;要麼改變現在的算法生産模式。

但這兩種方式都逃不開前面提到的資料問題。

對于一些封閉場景,比如園區物流,通過場景定制化方案可以實作全自動化流程,然而這并不适用于碎片化的開放場景;此外,定制化成本過高,單獨開發算法則會面對投入産出比嚴重不比對的問題。

因而,比較合适的解決方法,是改變現有的算法生産模式。

這也是小樣本學習(FSL)和AutoML(自動機器學習)火熱的根本原因。

1 FSL與AutoML

小樣本學習屬于機器學習下的一個分支,誕生于碎片化場景很難擷取足夠有效的資料這一背景下,旨在通過較少的資料量或樣本,來訓練算法模型。

與傳統機器學習相比,小樣本學習的優勢在于,不需要大量資料支撐,但這同樣也帶來問題:資料量太少導緻經驗風險最小化不可靠。

所謂經驗風險,是指模型關于訓練樣本集的平均損失。通常情況下,樣本容量足夠大(傳統機器學習),經驗風險最小化能保證有很好的學習效果;反之,樣本量太小,經驗風險最小化學習的效果就難以保證。

舉個例子:

假設以小孩子為算法模型,漢字為樣本資料,目标任務是認識漢字"我"。當小孩子抄寫"我"的次數足夠多,那麼小孩子的學習效果就更好;反之,如果隻抄寫了數次,那麼小孩子可能認識"我",也可能不認識,經驗風險是不可靠的。(案例并不嚴謹,僅供參考)

目前行業内已經開始通過資料增強、模型限制空間、搜尋算法等方式來解決小樣本學習存在的問題。

"如果模型能力足夠強,對樣本的需求并不一定要非常大。"魏宏峰表示,一個好的模型,可通過小樣本學習來形成自我訓練,進而提高算法精度與适應性。

而建立好的算法模型,與AutoML(自動機器學習)密切相關。

在傳統AI算法開發流程中,從業務和問題定義,到資料采集和标注、存儲管理、資料分析和可視化,再到模型結構設計、優化......最後到應用開發,需要經曆大概十三個環節,其時間成本、開發成本處于高位。

對于沒有算法開發能力,但有算法應用需求的企業而言,這個流程非常"複雜",且成本較高,難以承受。

因而隻專注于算法選取和神經網絡架構搜尋的傳統AutoML是無法滿足現實需求的,涵蓋算法研發全流程的AutoML應運而生,從特征工程、模型建構、超參選擇,優化方法四方面實作自動化,其優勢在于:既減少了算法生産成本,又提高效率,并且降低了算法生産門檻。

比如,傳統AI算法生産流程中,需要對資料進行人工标注,并且花大量時間處理資料;可以通過自動标注,結合人工複檢,來提高資料标注效率。

在業界,已經有許多較為成熟的AutoML平台,國外如FeatureLab(自動進行特征工程)、Google Cloud Vertex AI NAS;國内則有第四範式的AI Prophet AutoML等等。

除此之外,還有一些AI公司,比如中科智雲,也在做相應的類似的平台(X-Brain)。

作為一家聚焦安全治理的AI公司,中科智雲主要以X-Brain AI主動學習平台,融合小樣本學習架構、多源融合感覺計算等技術,為行業提供AI 安全治理服務。

"X-Brain 的核心是一套主動學習算法架構,應用自研的主動學習(Active Learning)技術,改變了監督學習的被動接受人工标注樣本的模式。"

魏宏峰告訴AI掘金志,該平台可通過AI主動判斷樣本是否需要算法工程師的參與,通過隻讓算法工程師參與部分困難樣本的确認,形成人在回路(Human-in-the-Loop)模式,主動訓練模型,形成模型自動疊代。

前面提到,小樣本學習是為了解決碎片化場景無法擷取大量資料訓練模型的問題,而AutoML是在傳統算法模式下,通過主動學習來提高算法生産效率,解放人力成本。

換句話說,小樣本學習解決資料難題,AutoML則是提高算法生産效率的新方法,兩者互相結合,或能解決小樣本學習存在的算法精度問題。

2 不可能三角?

"小樣本是低成本的基礎,因為樣本量小,訓練模型不需要高算力硬體裝置。"魏宏峰表示,如何讓小樣本學習達到商用精度,是一個巨大挑戰。

因為,小樣本學習存在經驗風險最小化不可靠這一問題,也就是學習效果不确定,可通俗了解為算法精度可能高,也可能低。

"在一些場景中,小樣本訓練出來的精度,在初期很難達到商用水準。但可以通過AutoML來縮短從初期模型到商用這個過程。"

魏宏峰介紹道,X-Brain在采集樣本之後,通過特征提取自動标注,并自動訓練模型,由具體的業務人員來進行評價,檢視是否發生誤報,并調整參數。

基于這些調整,該平台的自動訓練機制,将已标注完的資料放入重新訓練......通過這種循環訓練,來提高算法精度。

在這個過程中,樣本量小,模型也不大,通過主動訓練來提高精度,進而實作低成本使用。

是以,小樣本、低成本和高精度之間,并非存在一個"不可能三角"。

仍以之前的小孩子識字為例:小孩子隻抄寫數次"我",其結果是可能認識"我",也可能不認識。如果引入老師進行引導、校正,那麼即便抄寫次數較少,其認識漢字"我"的可能更大。

這個案例中,老師扮演了業務人員的角色,小孩子就是算法模型。算法(小孩子)在自動學習過程中,需要由業務人員(老師)來調整參數(引導),學習效果也就更好。

其優勢在于,給小孩子減負(減少抄寫次數)的同時,提高學習效率(算法精度);從整個學習過程看,老師(業務人員)也無需全程監督,進而減少成本。

這實際上改變了以往的算法生産模式,将算法生産帶入"平民化""低成本"時代。

3 AI與場景融合

AI從上半場進入下半場,實際上是從拼技術到拼場景的轉變:AI隻有在實際場景中落地才能産生價值。

在産業數字化轉型中,各種碎片化場景,對算法的精度要求也比較高。如果按照傳統的算法生産模式,成本降不下來,加上中小企業購買力弱,傳統企業數字化轉型必然難産。

而多樣化場景中,也很難以通用算法來"一口多吃"。

"不同的場景需要不同的資料樣本,訓練出來的模型也不一樣,通用算法模型并不适用,精度會大打折扣。"

魏宏峰表示,小樣本學習和AutoML從技術上解決算法生産難題,但如何讓技術更好地服務于企業,解決實際場景問題,就需要把具體場景痛點拆解之後,融入到整個算法生産過程中,從業務和問題定義開始,到模型調優,最後到算法傳遞,都要"讓懂業務的人參與"。

這主要展現在兩個方面:一是讓企業在平台上進行實驗,也就是業務試錯;二是與企業加強互動,讓懂業務的人員參與到算法訓練中來。

"客戶并不追求百分百的精度,能夠接受誤報,但不能接受試錯成本太高,帶來總成本上升。"魏宏峰認為,AI下半場由場景驅動,其實也是客戶驅動,核心是解決客戶(企業)在生産過程中遇到的問題。而AI公司要做好場景,最好的方式是直接與熟悉場景的業務人員互動,而不是AI公司本身去了解行業,否則成本會很高。

對于企業而言,考慮成本收益是其購買技術服務的出發點,成本(包括試錯、時間、人力等多個方面)則是第一要素,其次才考慮技術帶來的收益問題。

魏宏峰表示,企業購買技術服務之後,隻有在降本增效方面取得實際效果,複購率才會提高,AI公司才能形成正向的業務閉環。

"AI隻有靠業務,而不是資本推動,才能走出困局,改變行業。"而做好業務的首要前提是:結合場景。

不論是小樣本學習還是機器學習,都隻是生産算法的"術",結合場景解決産業數字化轉型過程中的痛點,才是AI的"康莊大道"。

「小樣本+AutoML」,改變算法生産的「核武器」?