天天看點

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

點選檢視第一章 點選檢視第三章

第2章

自動化人工智能

我們在第1章主要概述了人工智能,并在1.5節中引出了AutoML—自動化人工智能,本章将介紹AutoML,包括AutoML的概述、發展、研究意義以及現有的AutoML平台和産品,其中還會穿插介紹一些平台的應用執行個體。本章隻介紹概念性知識,關于AutoML的實際運用将在第二部分(第3~6章)和第三部分(第7~13章)詳細展開。

2.1 AutoML概述

傳統的人工智能旨在使用機器幫助人類完成特定的任務,随着人工智能的發展,在計算機領域衍生出了機器學習。機器學習旨在通過計算機程式完成對資料的分析,進而得到對世界上某件事情的預測并做出決定。随着機器學習的不斷發展,其複雜程度也在不斷增高,如果還完全依靠人為規定,使計算機按照設定的規則運作,會耗費大量的人力資源。如果讓計算機自己去學習和訓練規則,是否能達到更好的效果呢?跟随這一意願的提出,就出現了本書的核心思想—自動化人工智能,也就是所謂“AI的AI”。讓AI去學習AI,進而減少人工的參與,讓機器完成更複雜的工作,這掀起了下一代人工智能的浪潮。

2.1.1 什麼是自動化

在介紹自動化人工智能之前,先讓我們了解一下什麼是自動化。傳統的自動化是指讓機器等裝置在沒有人或者隻有較少人參與的情況下,按照人的要求,完成一系列任務。自動化被廣泛應用于各種行業,包括農業、工業、商業、醫療等領域。從20世紀40年代中期電子數字計算機的發明開始,數字程式控制便成為了一個新的發展方向。20世紀50年代末期,微電子技術開始發展,1958年出現半導體計算機,1965年出現內建電路計算機,1971年出現單片微處理器。微處理器的出現對控制技術産生了重大影響,控制工程師可以很友善地利用微處理器來實作各種複雜的控制,使綜合自動化成為現實。

自動化的概念跟随時代變化不斷發展。以前,自動化被認為是讓機器代替人工操作、完成複雜的特定工作任務。後來随着電子和資訊技術的發展,特别是随着計算機的出現和廣泛應用,自動化的概念被認為是用機器(包括計算機)不僅要代替人的體力勞動,還要代替或輔助腦力勞動,以自動地完成特定的任務。

随着自動化的發展,各行各業對于自動化的需求不斷增加,且對人工智能的普及和應用的要求也越來越高,成本、精确度、效率等都影響着人工智能在現實生活中的應用。在人工智能應用的快速增長中,為了提高其水準,出現了對機器學習的需求。

那麼如何将自動化的思想應用到機器學習中呢?

2.1.2 AutoML的起源與發展

AutoML(Automated Machine Learning,自動化機器學習),即一種将自動化和機器學習相結合的方式,是一個新的研究方向,它可以使計算機獨立完成更複雜的任務,進而解放人類的雙手。

在AutoML發展前,傳統的機器學習需要經曆資料預處理、特征選擇、算法選擇和配置等,而傳統的深度學習則需要經曆模型架構的設計和模型的訓練。上述這些步驟都需要人工來操作,不僅耗時耗力,而且對專業人員的需求也比較大,結合現實生活中人們日益增長的需求,這限制了人工智能在其他領域的應用發展。

是以,出現了這樣的想法:将機器學習中的資料預處理、特征選擇、算法選擇等步驟與深度學習中的模型架構設計和模型訓練等步驟相結合,将其放在一個“黑箱”裡,通過黑箱,我們隻需要輸入資料,就可以得到我們想要的預測結果。中間這個“黑箱”的運作過程,不需要人工的幹預便可以自動完成,而這個自動化的系統就是我們這本書的重點—AutoML。

圖2-1為AutoML的一個通用運作流程,也就是上面提到的,将所有運作流程都封裝在一個“黑箱”中,我們隻需要輸入資料集,便可得到預測結果。

AutoML主要關注兩個方面—資料的擷取和預測。目前已經出現了很多AutoML平台(見2.3節),使用者在使用這些平台時,可以使用自己帶的資料集,識别标簽,進而得到一個經過充分訓練且優化過的模型,并用該模型進行預測。大多數平台都會提示使用者上傳資料集,然後标記類别。在此之後,資料預處理、選擇正确的算法、優化和超參數調整等步驟都是在伺服器上自主進行的。最後,平台将公開一個可用于預測的REST端點。這種方法顯著改變了訓練機器學習模型中涉及的傳統工作流。

一些AutoML平台還支援導出與運作Android或iOS的移動裝置相容的、經過充分訓練的模型。開發人員可以快速地将模型與他們的移動應用程式整合在一起,而無須學習機器學習的基本知識。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-1 AutoML通用流程

許多公司将AutoML作為一種服務提供給使用者。Google Cloud AutoML、Microsoft Custom Vision和Clarifai的圖像識别服務都是早期的AutoML使用者。另外很多大公司内部也都有自己的平台,例如Uber、OpenAI、DeepMind等都在NAS任務上做研究。從發展趨勢來看,AutoML是未來人工智能發展的一個重要方向,但現階段的研究成果成熟度和實際産品應用成熟度都存在巨大的提升空間。

AutoML完全适合于認知API和定制機器學習平台。它提供了适當的定制級别,而非強制開發人員執行複雜的工作流。與以往被視為“黑箱”的認知API相比,AutoML雖然公開了相同程度的靈活性,但是結合了自定義資料和可移植性。

随着每一個平台供應商都試圖實作機器學習的大衆化,AutoML正在成為人工智能的未來。圖2-2是基于AutoML平台所具有的功能,在AutoML平台上可以實作多個領域的融

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-2 AutoML平台具備的功能

合,既可以完成語音領域的任務,如自動語音識别系統、聊天機器人、文本語音系統;也可以完成聲紋領域的任務,如聲紋識别系統;還可以完成圖像領域的任務,如計算機視覺、圖像識别、目标檢測等。

2.2 AutoML的研究意義

2.2.1 AutoML的研究動機

傳統的機器學習在解決問題時,首先需要對問題進行定義,然後針對特定問題收集資料,由專家對資料特征進行标定、提取特征、選擇特征,然後根據所選特征訓練模型、對模型進行評估,最後部署到應用上,以解決最初提出的問題。其中資料收集、特征提取、特征選擇、模型訓練和模型評估的過程,是一個疊代的過程,需要反複進行、不斷優化才能得到較優的模型。這個過程非常耗時費力,那麼AutoML呢?AutoML可以将傳統機器學習中的疊代過程綜合在一起,建構一個自動化的過程,實作自動特征工程、自動管道比對、自動參數調整、自動模型選擇等功能,進而減少時間和人力等資源的浪費。圖2-3所示是傳統機器學習和自動化機器學習的對比。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-3 傳統機器學習和自動化機器學習對比

(1)傳統機器學習是一個煩瑣且耗時的過程

傳統的AI模型訓練往往要經曆特征分析、模型選擇、調參、評估等步驟,這些步驟需要經曆數月的時間,如果完全沒經驗,時間會更長。AutoML雖然也需要經曆這些步驟,但是通過自動化的方式,可以減少這些步驟的時間。選擇怎樣的參數,被選擇的參數是否有價值或者模型有沒有問題,如何優化模型,這些步驟在從前是需要依靠個人的經驗、知識或者數學方法來判斷的。而AutoML可以完全不用依賴經驗,而是靠數學方法,由完整的數學推理的方式來證明。通過資料的分布和模型的性能,AutoML會不斷評估最優解的分布區間并對這個區間再次采樣。是以可以在整個模型訓練的過程中縮短時間,提升模型訓練過程的效率。

(2)傳統機器學習有一定難度,準入門檻高

模型訓練的難度使得很多初學者望而卻步,即使是資料專家也經常抱怨訓練過程是多麼令人沮喪和變化無常。沒有經過一定時間的學習,使用者很難掌握模型選擇、參數調整等步驟。

AutoML可以降低使用機器學習的門檻,它作為一個新的AI研究方法,将機器學習封裝成雲端産品,使用者隻需提供資料,系統即可完成深度學習模型的自動建構,進而實作自動化機器學習。

AutoML将會成為機器學習發展的最終形态,即機器自己完成學習任務,這樣基于計算機強大計算能力所獲得的模型将優于人類對它定義的模型。從使用的角度來講,必定會有更多非專業領域的人受益于AutoML的發展。

圖2-4展示的是一個使用AutoML進行圖檔分類的簡單問題。首先上傳圖檔并對圖檔進行标注;接着被标注過的圖檔會輸入到視覺處理系統中,由視覺處理系統根據上傳的圖檔,對标注區域的特征進行提取,并進行特征的預處理,之後根據圖檔特征,自動建構神經網絡結構并訓練該模型;經過不斷地評估和優化,最後得到一個預測模型。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-4 使用AutoML進行圖檔分類

2.2.2 AutoML的意義和作用

21世紀是一個資訊的時代,各行各業都面臨着一個同樣的問題,那就是需要從大量的資訊中篩選出有用的資訊并将其轉化為價值。随着機器學習2.0的提出,自動化成為了未來機器學習發展的一個方向。如圖2-5所示,各行各業都涉及機器學習,機器學習已經融入我們生活的方方面面,比如金融、教育、醫療、資訊産業等領域。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-5 機器學習可賦能産業

對于一個機器學習的新人來說,如果他想使用機器學習,則會遇到很多的障礙,也會受到很多的限制,例如:該怎樣處理資料、如何選擇模型、使用怎樣的參數、模型效果不好該如何優化等。AutoML使得機器學習大衆化,讓這些連專業術語都不懂的人,也可以使用機器學習。他們隻需要提供資料,AutoML便會自動得出最佳的解決方案。而對于有一定機器學習基礎的人來說,則可以自己選擇模型、參數,然後讓AutoML幫助訓練模型。

AutoML帶來的不僅僅是自動化的算法選擇、超參數優化和神經網絡架構搜尋,它還涉及機器學習過程的每一步。從資料預處理方面,如資料轉換、資料校驗、資料分割,到模型方面,如超參數優化、模型選擇、內建學習、自動化特征工程等,都可以通過AutoML來完成,進而減少算法工程師的工作量,使他們的工作效率得到進一步提升。

圖2-6所示為2018年各人工智能行業的資金投入量,其中機器學習領域的資金投入量最大,說明了機器學習對于現在的人工智能的重要性。在其他領域,自然語言處理、計算機視覺、智能機器人、語音識别等,資金投入量也不容小觑。AutoML可以融合上述方面,實作自動化。目前,人工智能領域也确實是朝着這個方向發展,将各個行業融合在一起,隻需要一個AutoML的伺服器,即可實作各個領域的融合,友善使用者的使用,使其更快地融入我們的現實生活,友善我們的生活。

(1)AutoML解決了人工智能行業人才缺口的瓶頸

對于急速發展的人工智能領域來說,人才的培養顯得有些不足。人工智能的發展時時刻刻都在變化,而培養一批該行業的專業人員通常需要幾年的時間。以青年人群為例,從上大學開始,學校才會根據專業對他們進行培養。如果選擇計算機專業,大學教育通常隻會讓他們了解到計算機的基礎知識,使其具備基本的程式設計能力;通常到研究所學生階段,才會接觸到機器學習等複雜的人工智能。這就需要至少6年的時間才能培養出一批機器學習領域的從業人員。這樣長的人才培養周期是無法跟上人工智能行業快速發展的腳步的,而AutoML就很好地解決了這一問題。AutoML可以提供自動化的服務,對于曾經需要人工參與的資料處理、特征處理、特征選擇、模型選擇、模型參數的配置、模型訓練和評估等方面,實作了全自動,僅憑機器就可以獨立完成這一系列工作,不需要人工幹預,進而減少了人力資源的浪費,解決了人才緊缺的問題。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-6 2018年各人工智能行業資金投入量

但是,這就涉及另一個問題了,既然機器可以完成大部分的工作,是否會造成相關專業人員的失業問題呢?其實,這個答案必然是否定的,AutoML可以解決人才緊缺的狀況,但是并不代表它能取代專業人士。現有的AutoML平台雖然可以完成這些步驟的自動化處理,但是其中的規則仍然需要人工設定,也就是說,專業人士并不會面臨失業的困境,而是要做更高端的工作。

(2)AutoML可以降低機器學習的門檻,使AI平民化

前文已經提到過很多次,機器學習的自動化可以降低機器學習的入門門檻。無論是機器學習新人、機器學習行業從業者,還是機器學習行業專家,都可以很好地适應AutoML,并使用它提供的服務。對于機器學習新人來說,隻需要提供資料集上傳至AutoML伺服器,即可得到預測結果;對于機器學習行業的從業者而言,可以自主選擇其中的參數;對于機器學習行業專家來說,可以在AutoML平台設定更多的參數,或者進一步研發AutoML。

(3)AutoML可以擴大AI應用普及率,促進傳統行業變革

AutoML可以涉及圖像識别、翻譯、自然語言處理等多種AI技術與産品。以自然語言處理為例,比如一個小的電商網站想對收集到的大量使用者評價進行分析,了解這些評價是正面的還是負面的,以及提到了哪方面的問題。從前需要人工進行标注,現在用AutoML自然語言處理,就可以很簡單地訓練一個屬于自己的模型,自動化地做标注和分析。

如今,AI技術的普及和發展,使得各個行業都逐漸意識到AI技術對于産業、産品方面的優化作用。但是,作為金融、制造、消費、醫療、教育等傳統企業,從無到有應用AI的成本往往不低,使得很多企業雖然有着需求但對于應用AI望而卻步。

AutoML作為這類問題的解決方案,使得越來越多的科技企業開始研發AutoML平台,目的就是為不懂技術的傳統企業提供使用AutoML技術的捷徑,進而達到人人皆可用AI的局面。AutoML作為一個新的AI研究方法,擴充了AI研究能夠到達的邊界,然後又在其上建構了AutoML的應用平台及産品,讓AI的應用得到了較為有效的擴充,讓更多行業都可以用AI解決現實世界中的問題。

2.3 現有AutoML平台産品

2.3.1 谷歌Cloud AutoML

1.簡介

Cloud AutoML(

https://cloud.google.com/automl

)是一套機器學習産品,通過利用Google最先進的元學習、遷移學習和神經架構搜尋技術,使機器學習專業知識有限的開發人員也能根據業務需求訓練高品質模型。Cloud AutoML主要提供以下3個領域的AutoML服務:圖像分類、文本分類以及機器翻譯。在圖像分類領域,谷歌提供了大量标注良好的人類圖像供開發者使用,同時提供了标注工具允許開發者自行對圖像進行标注。

2.使用方式

谷歌Cloud AutoML系統提供了圖像使用者界面,以及Python API、Java API和Node.js API等使用方式。

首先來看看圖形使用者界面(見圖2-7),它按照資料準備、訓練、評估、預測等步驟進行組織,使用者隻需要按照規定執行一步就可以完成整個過程。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-7 Cloud AutoML圖形使用者界面

再來看看通過API的方式進行接口調用,以Python為例,如圖2-8所示。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-8 Cloud AutoML的API調用

使用者可以根據自身的習慣和需要,選擇圖形界面方式或者API方式并使用自己熟悉的語言去完成整個流程,進而保證該平台的通用性。從這個角度而言,該平台既可以有效服務入門級使用者,也可以服務專家級算法工程師并與大型項目對接。

Cloud AutoML中重要的一環Cloud AutoML Vision代表了深度學習去專業化的關鍵一步。企業不再需要招聘人工智能專家來訓練深度學習模型,隻需要有簡單基礎的人通過Web圖像使用者界面上傳幾十個示例圖像,點選一個按鈕即可完成整個深度神經網絡的建構與訓練,同時完成後可以立即部署于谷歌雲上進入生産環境。

3.遷移學習與元學習的運用

Cloud AutoML利用了元學習與遷移學習。元學習與遷移學習可以有效利用過去的訓練經驗與訓練資料,這意味着使用者不再像過往那樣需要提供海量的資料進行模型訓練,而隻需要提供較少的資料就可以完成一個圖像分類器的訓練并應用于特定場景。這背後是谷歌大量的基礎訓練資料源和訓練經驗與記錄的支撐。

另外,遷移學習與元學習的應用涉及使用者資料隐私與平台性能的權衡問題。如果Cloud AutoML可以将使用者的資料與訓練經驗都積累起來并提供給其他使用者使用,那麼該平台的底層資料積累便會越來越雄厚,其使用效果也會越來越好。但是,大多數客戶都不會希望自己的資料被洩漏,是以上述的美好願景也不一定能實作。

2.3.2 百度EasyDL

不同于傳統意義上的AutoML,EasyDL是一個專門針對深度學習模型訓練與釋出的平台。在EasyDL之前,百度就已經有了深度學習計算引擎PaddlePaddle。PaddlePaddle是一個類似于谷歌TensorFlow的專業級計算平台,目标群體是有一定計算機與算法基礎的專業AI算法工程師。

除此之外,百度還有百度AI開放平台,使用者可以通過平台提供的API付費調用百度的AI算法能力實作自己的需求。但是AI開放平台的算法模型很多時候難以覆寫全部的場景,是以對于很多企業而言,還存在着大量等待被滿足的定制化需求。

EasyDL平台的出現是為了解決AI賦能行業的這個痛點,以一種便捷高效的方式滿足這些定制化深度學習模型需求以及伴随而來的其他需求。使用者上傳自己的資料,在平台上進行資料标注、加工、訓練、部署和服務,最終得到雲端獨立的REST API或一個離線SDK,進而友善地将模型部署到自己的業務場景中。

目前該平台提供圖像識别、文本分類、聲音分類等服務分類(見圖2-9)。圖像識别領域支援圖像分類以及物體檢測,文本分類領域支援廣泛的文本分類,而聲音分類領域提供音頻定制化識别服務。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-9 EasyDL的3個主要服務領域

目前EasyDL的各項定制能力在業内得到廣泛應用,使用者累計過萬,在零售、安防、網際網路内容稽核、工業質檢等數十個行業都有應用落地,并提升了這些行業的智能化水準和生産效率。

由于目标群體主要為沒有相關專業知識但又想要利用AI進行行業賦能的外行使用者,EasyDL提供了一個流水線式的可視化界面(見圖2-10)。其功能分為資料中心與模型中心:資料中心負責資料集的管理與标注,模型中心負責訓練與部署。

使用者基本上無需機器學習的專業知識,隻需要對過程有簡單的了解,跟随界面的流程執行模型建立—資料上傳—模型訓練—模型釋出等流程,中間的過程平台會通過遷移學習、自動化模組化技術等方式完成。

3.自動化模組化技術

在自動化模組化上,EasyDL平台有兩種不同的方法:一種是基于遷移學習的Auto Model Search,另一種是基于神經架構搜尋的模型自動生成方法。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-10 EasyDL的可視化界面

基于遷移學習的Auto Model Search方法是針對使用者資料集的類型,在适用于該類型資料集的過去被證明優秀的預訓練模型中進行搜尋,如Inception、ResNet、DenseNet等,并結合不同的超參數組合進行訓練與選擇;每一個模型都會結合其配置的超參組合進行訓練,這個過程可以通過百度的workflow等高性能底層計算平台進行并行加速。

對于某些對性能需求更高的使用者而言,上述方式不一定能夠把模型性能推到極緻;是以還需要基于神經架構搜尋NASNet的方法,該方法能夠針對使用者的資料集從零開始生成一個最适配的模型,進而確定性能可以達到最優,但是相對的計算成本也會更高;在本書的後續章節會對NASNet等神經架構搜尋方法進行講解。

這些過程都是在底層自動完成的,使用者完全不需要操心中間的細節問題。

2.3.3 阿裡雲PAI

阿裡雲機器學習PAI(Platform of Artificial Intelligence)是一款一站式的機器學習平台,包含資料預處理、特征工程、正常機器學習算法、深度學習架構、模型的評估以及預測這一整套機器學習相關服務(見圖2-11)。

2.面向大規模計算與多場景多業務的産品架構

PAI包含資料預處理、特征工程、機器學習算法等基本元件;所有算法元件全部脫胎于阿裡巴巴集團内部成熟的算法體系,經受過PB級别業務資料的錘煉。阿裡巴巴内部的搜尋系統、推薦系統、螞蟻金服等項目在進行資料挖掘時,都是依賴機器學習平台産品。如圖2-12所示,PAI平台的業務十分廣泛,支援多種計算架構。算法層不僅包含資料預處理、特征工程等基本算法,也涵蓋各種機器學習算法、文本分析和關系網絡分析等。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-11 阿裡雲PAI工作流程圖

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-12 阿裡雲PAI産品架構圖

3.豐富的機器學習子產品庫

阿裡雲可以快速搭建資料預處理、特征工程、算法訓練、模型預測和評估的整個鍊路,提供百餘種機器學習算法元件,深耕深度學習計算架構,底層支援GPU分布式叢集計算,功能可覆寫資料導入與處理、資料特征工程、機器學習深度學習、商品推薦、金融資料預測與風控、文本分析、統計分析、網絡圖分析等常見場景。

4.拖曳式可視化模組化—PAI Studio

PAI提供了3種不同的模式:為新手設計的可視化PAI Studio模式、為進階使用者設計的PAI Notebook模式,以及專門針對生産部署的PAI EAS模式。

PAI Studio可視化模式允許客戶通過拖曳元件的方式完成整個機器學習的流程(見

圖2-13),使用者無須過多關注底層的代碼和算法,簡單使用與測試即可。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-13 阿裡雲PAI拖曳式元件

資料導入:首先将資料存入阿裡雲的MaxCompute系統中,接着就可以輕松導入資料。

資料預處理與模組化全流程:全流程都可以通過拖曳完成,拖曳後簡單設定一下相應的參數與屬性即可。圖2-14是一個簡單的模組化流程示例。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-14 阿裡雲PAI模組化流程示例

5.工業級機器學習自動調參與部署服務

PAI提供了從模型自動調參到一鍵部署,再到線上的流式計算服務等一條龍的工業級模型部署方案;打通了從模型調參到部署的環節,通過自動化的手段大幅提高各個環節與階段的生産效率。

PAI-AutoML支援幾種調參方法,如自定義參數、網格搜尋、随機搜尋以及進化算法等,也支援不同情況下的調參需求。

PAI自動調參功能對于資深算法工程師以及入門者都有很大價值。針對入門使用者,該類使用者不清楚算法原理,是以無法高效調參,是以自動調參可以快速幫助這部分使用者解決這個困擾。針對資深算法工程師,盡管其對于調參有一定經驗,但是這種經驗往往隻能在大方向上指導調參,對于一些細節參數仍需要不斷重複嘗試,而自定義調參功能可以代替這部分重複性勞動。

在生成模型後,可以在PAI平台一鍵将模型釋出成API服務。隻要點選部署按鈕,就會列出目前實驗可部署的模型,選擇需要的模型就可以一鍵完成部署,圖2-15所示的是一個心髒病預測案例的模型線上部署示例。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-15 阿裡雲PAI模拟線上部署示例圖

2.3.4 探智立方DarwinML

探智立方是一家開發人工智能相關技術和解決方案的科技公司,公司主要基于AutoML理念,開發人工智能模型自動設計平台DarwinML,降低人工智能的應用門檻,讓各行業的IT人員、行業專家能更便捷地将人工智能相關技術落地于各種适合并需要的場景中,解決廣大企業面臨的人工智能人才及能力不足的問題。

DarwinML是以機器學習及基因演化理論為基礎的人工智能模型自動設計平台,是一種基于進化算法的神經架構搜尋方法。谷歌在2018年發表的一篇基于進化算法的論文證明了采用進化算法也可以取得超越專家工程師的效果,本書後續章節也會有相關内容的介紹。

圖2-16為探智立方的roadmap規劃。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-16 探智立方roadmap規劃圖

由于該公司沒有AI開放平台與試用産品,是以無法提供使用調研資訊。

2.進化架構搜尋

進化架構搜尋是基于進化算法一代又一代進行搜尋與更新的方法,如圖2-17所示。每一次模型的生成都會從最簡單的網絡開始,逐漸通過交叉與變異等算子形成複雜的大型網絡。

3.統計進化

DarwinML還采用了基于統計分析的進化算法的元學習思路,在不斷的模型演化過程中,可以儲存發現的好的模型基因和高效的模型演化路徑形成基因庫。有了這些經驗與積累,平台的算法能力就會不斷提高,進而提高模型演化的效率和演化出模型的品質。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-17 進化架構搜尋圖

2.3.5 第四範式AI Prophet AutoML

AI Prophet AutoML是一款覆寫了機器學習全流程的自動化産品,幫助企業低門檻、規模化擁有自主可控的AI能力,進而在廣告營銷、風險控制等高價值、高難度決策類場景中擁有出色的決策能力。 AI Prophet AutoML通過簡潔、易了解、易操作的方式覆寫了從模型調研到應用的機器學習全流程,打通了機器學習的閉環。使用者隻需“手機行為資料、手機回報資料、模型訓練、模型應用”4步,無須深入了解算法原理和技術細節,即可實作全流程、端到端的AI平台建構。在降低門檻的同時,其建構編碼方式也與傳統人工智能方法不同,AI Prophet AutoML提供了“傻瓜式”的互動界面,即讓企業免去編碼定義模組化的過程,将開發AI應用的周期從以半年為機關縮短至周級别。

2.應用場景與資料處理

AI Prophet AutoML還展現出了比較高的模型水準。在疾病預測、金融反欺詐、網際網路推薦、廣告營銷、風險控制等高價值、高難度的決策類場景測試下,該平台做出了接近甚至超過頂級資料科學家的模型數倍的效果,讓AI擁有出色的決策能力。另外,模型可一鍵上線,生成預測API,也可根據需求自動上線。系統支援資源自動彈性伸縮。

在資料管理方面,該産品針對AI應用設計資料治理流程,包括資料自動推斷、自動清洗、預處理、自動标記等,由此将資料分為行為資料與回報資料的管理,更符合AI應用的場景,有目的性地讓資料為AI服務。

在企業資料方面,從曆史資料的利用到模型上線後新産生資料的自動回流,再到新資料的自動訓練,一系列的過程使得企業資料變為活水,不斷産生與使用,常用常新,越來越精準。如圖2-18所示,是一個線上廣告投放的案例,該企業的過程資料不僅可用于投放線上廣告,還可以實作個性化推薦和實時反欺詐功能。

第四範式緻力于提供通用的平台能力,降低AI應用的門檻,為企業打造一套自動化、流程化的工具。AutoML平台,是第四範式在先知系統的基礎上進一步降低企業AI落地應用門檻和TCO成本,拓展衍生平台專業應用能力和生态産業鍊的成果。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-18 企業資料應用

2.3.6 智易科技

智易科技通過一站式的AI研發與應用雲服務平台,幫助零售、制造、金融、教育、醫療等各行各業的企業更加簡單便捷地進行AI應用的開發與部署,低成本擁有人工智能,進而獲得更大的商業價值。智易深思平台可以幫助任何企業使用者快速開發出可應用與實際生産環境的AI模型,使用者隻需要将資料導入并選擇預測目标,平台即可給出最優模型。如圖2-19所示,深思平台定位零門檻和全程可視化的人工智能應用開發平台,使用者不需要掌握任何AI相關的理論和知識,就可以輕松上手。

帶你讀《深入了解AutoML和AutoDL:建構自動化機器 學習與深度學習平台》之二:自動化人工智能自動化人工智能

圖2-19 智易深思平台架構圖

2.平台介紹

深思平台是一個龐大的系統集合,包括底層的分布式叢集、雲基礎設施;上層的AI模型研發、分布式訓練架構以及大資料引擎,如Hadoop、Spark等;同時擁有ETL層,可對資料進行處理,有可視化和BI等功能;并在面向前端使用者時,搭建了基于浏覽器的可視化操作頁面,大幅降低了使用門檻。AutoML是深思平台中的關鍵技術之一。目前,深思平台主要應用在金融業、零售業以及工業中,支援結構化資料和圖像資料,可以幫助客戶完成反欺詐、銷量預測以及産品缺陷檢測等一系列AI應用。平台具有應用門檻低、高度自動化的工具鍊、多場景模型訓練支援、大規模的分布式系統管理等優點。

2.4 參考文獻

[1] OUELLETTE R. Automation impacts on industry [M]. Ann Arbor: Ann Arbor Science Publishers, 1983.

[2] BENNETT S. A history of control engineering 1800-1930 [M]. Stevenage: Peter Peregrinus, 1979.

[3] HUTTER F, CARUANA R, BARDENET R, et al [C].AutoML workshop @ ICML 2014, 2014.

[4] YAOQ M, WANGM S, CHEN Y Q, et al. Taking human out of learning applications: a survey on automated machine learning [J]. arXiv:1810.13306, 2018.

[5] SPARKS E R, TALWALKAR A, HAAS D, et al. Automating model search for large scale machine learning[C]//SIGMOD. 2015 ACM Symposium on Cloud Computing, New York: ACM, 2015: 368–380.

繼續閱讀