天天看點

AI開發者十問:10分鐘了解AI開發的基本過程

摘要:從AI開發模型、架構、工具,到提升開發效率的學習辦法,為AI開發者逐一解答。

本文分享自華為雲社群《10分鐘了解AI開發的基本過程》,作者:簡單堅持。

一個硬體開發者的工作成果是一個布滿內建電路的伺服器,開機就可以運作某種軟體。

一個移動端開發者的工作成果可以是一個手機APP,包括了大量二進制資料,可被麒麟晶片直接運作。

一個AI開發者的工作成果則是一個模型,模型本質上是一個函數:

無論這個函數有多麼複雜,有多少個變量或者參數,AI開發都是試圖找出這個函數的表達式。

AI模型本質是一個函數,想要找到這個函數準确的的表達式,僅憑邏輯是無法推導出來的,而是訓練出來的,我們喂給機器目前已有的資料,機器就會從這些資料裡去找出一個最能滿足(專業術語稱為拟合)這些資料的函數,當有新的資料需要預測的時候,機器就可以通過這個函數去預測出這個新資料對應的結果是什麼。

對于一個具備某種智能能力而言,一般具備以下要素:資料+算法+模型,開發的過程,就是不斷地用資料和算法使得模型越來越逼近真實情況,注意是逼近而非推導,這個過程稱為訓練。

我們來用一個能夠區分貓和狗圖檔的模型來幫助了解訓練的過程:“資料”就是我們需要準備大量标注過是“貓”還是“狗”的圖檔;“算法”指的是構模組化型時我們打算用淺層的網絡還是深層的,如果是深層的話我們要用多少層,每層有多少神經元、功能是什麼等等,也就是網絡架構的設計,相當于我們确定了我們的預測函數應該大緻結構是什麼樣的。

我們用Y=f(W,X,b)來表示這一函數,X是已有的用來訓練的資料(貓和狗的圖檔),Y是已有的圖檔資料的标簽(該圖檔是貓還是狗), W和b是什麼意思呢?一開始,我們确實不知道,這兩個參數是需要機器學習後自己找出來的,找的過程也就是訓練的過程。

“模型”指的我們把資料帶入到算法中進行訓練,機器就會去不斷地學習,當機器找到最優W和b後,我們就說這個模型是訓練成功了,這個時候我們的函數Y=f(W,X,b)就完全确定下來了

然後我們就可以在已有的資料集外給模型一張新的貓或狗的圖檔,那模型就能通過函數Y=f(W,X,b)算出來這張圖的标簽究竟是貓還是狗,這就是推理。

簡單總結下:不管是最簡單的線性回歸模型、還是較複雜的擁有一億個參數的深度神經網絡模型,本質都是尋找一個能夠良好拟合目前已有資料的函數Y=f(W,X,b),并且我們希望這個函數在新的未知資料上也能夠表現良好。

因為隻有資料量足夠大,模型才能夠學習到足夠多且準确的區分貓和狗的特征,才能在區分貓狗這個任務上,表現出足夠高的準确性;當然資料量不大的情況下,我們也可以訓練模型,不過在新資料集上預測出來的結果往往就會差很多。

假設識别貓的模型要非常準确,就需要各種光照條件、各種背景、各種花色的貓的照片,不僅要有波斯貓,還要有加菲貓,直到模型包含了我們能想到的各種貓的特征,一個人臉識别模型,大約需要幾百萬張照片,才能達到可用,著名的Imagenet資料集,大約包含了1400萬張圖檔,極大地友善了開發者。

假設沒有一個現成的開發平台,首先你需要學會常用的AI開發語言python,python是整個過程并不耗精力的環節,其次你需要學習傳統機器學習和深度學習相關算法,這塊算是花費最多精力和時間的環節,然後盡可能去了解和推導算法,然後用python代碼去實作算法再訓練模型,代碼能力很重要,不然你的模型都建不起來。

然後你發現了一個開發架構,華為MindSpore或者谷歌Tensorflow,你會發現并不需要那麼高的數學門檻,不是說要深刻了解算法才能更好訓練出好模型,模型損失函數優化方法MindSpore/Tensorflow都内置好了,而且隻需要簡單的調用就好了,如果說MindSpore/Tensorflow是可以把一個模型代碼量大大減少的架構,那麼Keras就是讓模型代碼量可以少到驚人的架構,例如上面的貓狗分類器,15行代碼就可以搞定,幾十行代碼就把一個擁有着卷積層、池化層和全連接配接層的較進階優化方法的深度學習網絡架構寫出來。

一個開發架構就像安卓架構為手機APP開發者提供的很多基礎功能,如果沒有這個架構,一個簡單的給好友發送圖檔的功能,你需要直接和作業系統的各個底層功能子產品打交道了。

當然不是,一個開發架構,隻是幫開發者做了一些開發者沒必要實作的部分,或者實作起來代價太大的部分,一個完整的AI開發過程,從準備資料、資料預處理、資料标注、選擇算法、訓練、調參、部署,這和一個普通的APP開發的過程差不多。如同生産一輛汽車,一個自動化、高科技的總裝工廠中的房間是必不可少的,但沖壓、塗裝工廠中的房間也制約着汽車的生産效率,那麼制約AI開發效率最頭痛的是什麼,請看下一個問題。AI開發過程中最大的困難是什麼?

要準備大量的資料,前面已經提過,更可怕的是資料标注,據統計,資料處理和标注環節大約占整個開發周期的70%。所謂标注,就是給資料打标簽,告訴機器一張圖檔究竟是貓還是狗,标注是一件在AI開發者看來技術含量非常低的工作,已經屬于勞動密集型産業,業界有大量的第三方公司,專門從事資料标注工作。以自動駕駛為例,車頭上的錄影機在實時拍攝車前的所有畫面,自動駕駛标注的過程要标注前車、障礙物、行人、信号燈、訓示牌、訓示線等等,這個過程如果完全依賴人工标注,自動駕駛将永遠難以商用。

要反複疊代訓練,訓練并不是一蹴而就,要反複修改各種參數,使得模型的準确度逐漸提升,這個過程,目前需要豐富的經驗,如果沒有充足的算力,訓練一次,等待三天,然後調參,再等待三天,如果要疊代20次,這個過程是很消耗人的意志。是以,即使不考慮成本因素,算力也是制約AI普及最大的問題。

正如開發一個office軟體,不可能費事到用記事本敲代碼,你需要一個像visual studio一樣的內建開發環境,需要一個像Git一樣的代碼管理工具,同理,開發一個AI模型,你也需要一個內建開發環境,而且需要一個版本管理工具。

提供給開發者代碼編輯環境、文法檢查、編譯器等功能,一個AI的開發平台,同樣也要能幫開發者标注資料、建立模型訓練作業、部署模型等功能,有了開發平台,開發平台要幫助開發者把所有苦活累活都幹完,讓開發者聚焦在最核心的代碼和算法上。

當然,要提供給開發者易擷取、性能強、價格低的算力,提高模型訓練的疊代速度。

當然有。從根本上提升開發效率,挖掘到最本質,隻有兩個辦法:重用和自動化,否則隻能一行一行代碼幹起。

開發一個APP,可以從最基本的代碼寫起,可以複用開發者共享的開發包、函數等,華為雲開源鏡像站有大量的java開發包,就是這個意思,也可以複用一個完整的APP,修改下界面配色,就變成了自己的APP,這是複用。要保障APP的品質,可以手工測試,也可以用自動化測試工具。如果這些都不想做,可以也可以用一個現成的工具,用可視化的方法生成一個APP,當然APP的風格隻能從工具已有的模闆中選取。開發者一直在試圖用各種辦法,降低開發的工作量。

AI開發也是一樣的。可以找現成的資料集、找現成的标注好的資料集,現成的算法和模型,用自動部署工具将模型部署到端邊雲。當然,也可用自動學習功能,隻要提供原始資料,由系統幫助開發者完成模型建構、算法選擇和自動訓練,開發者可以直接看到結果。最簡單的辦法,就是尋找一個已經訓練好的模型,在軟體中直接調用。

基于此,一個好的AI開發平台,要從各個次元去提升開發效率,這些功能往往都是很多小細節,算力強、訓練快,隻是完成了必須的最基本的功能。

ModelArts,一個AI開發平台 ,用于AI模型開發

HiLens,一個視覺AI應用開發平台,用于AI應用開發,應用裡面的模型由ModelArts提供。

以上兩款産品以雲服務的方式在華為雲EI提供服務。

Atlas 200 developer kit(開發闆)是ModelArts 的線下開發套件。

點選關注,第一時間了解華為雲新鮮技術~

繼續閱讀