天天看點

吳恩達《建構機器學習項目》精煉筆記(2)-- 機器學習政策(下)

1 Carrying Out Error Analysis

對已經建立的機器學習模型進行錯誤分析(error analysis)十分必要,而且有針對性地、正确地進行error analysis更加重要。

舉個例子,貓類識别問題,已經建立的模型的錯誤率為10%。為了提高正确率,我們發現該模型會将一些狗類圖檔錯誤分類成貓。一種正常解決辦法是擴大狗類樣本,增強模型對夠類(負樣本)的訓練。但是,這一過程可能會花費幾個月的時間,耗費這麼大的時間成本到底是否值得呢?也就是說擴大狗類樣本,重新訓練模型,對提高模型準确率到底有多大作用?這時候我們就需要進行error analysis,幫助我們做出判斷。

方法很簡單,我們可以從分類錯誤的樣本中統計出狗類的樣本數量。根據狗類樣本所占的比重,判斷這一問題的重要性。假如狗類樣本所占比重僅為5%,即時我們花費幾個月的時間擴大狗類樣本,提升模型對其識别率,改進後的模型錯誤率最多隻會降低到9.5%。相比之前的10%,并沒有顯著改善。我們把這種性能限制稱為ceiling on performance。相反,假如錯誤樣本中狗類所占比重為50%,那麼改進後的模型錯誤率有望降低到5%,性能改善很大。是以,值得去花費更多的時間擴大狗類樣本。

這種error analysis雖然簡單,但是能夠避免花費大量的時間精力去做一些對提高模型性能收效甚微的工作,讓我們專注解決影響模型正确率的主要問題,十分必要。

這種error analysis可以同時評估多個影響模型性能的因素,通過各自在錯誤樣本中所占的比例來判斷其重要性。例如,貓類識别模型中,可能有以下幾個影響因素:

  • Fix pictures of dogs being recognized as cats
  • Fix great cats(lions, panthers, etc…) being misrecognized
  • Improve performance on blurry images

通常來說,比例越大,影響越大,越應該花費時間和精力着重解決這一問題。這種error analysis讓我們改進模型更加有針對性,進而提高效率。

2 Cleaning Up Incorrectly Labeled Data

監督式學習中,訓練樣本有時候會出現輸出y标注錯誤的情況,即incorrectly labeled examples。如果這些label标錯的情況是随機性的(random errors),DL算法對其包容性是比較強的,即健壯性好,一般可以直接忽略,無需修複。然而,如果是系統錯誤(systematic errors),這将對DL算法造成影響,降低模型性能。

剛才說的是訓練樣本中出現incorrectly labeled data,如果是dev/test sets中出現incorrectly labeled data,該怎麼辦呢?

方法很簡單,利用上節内容介紹的error analysis,統計dev sets中所有分類錯誤的樣本中incorrectly labeled data所占的比例。根據該比例的大小,決定是否需要修正所有incorrectly labeled data,還是可以忽略。舉例說明,若:

  • Overall dev set error: 10%
  • Errors due incorrect labels: 0.6%
  • Errors due to other causes: 9.4%

上面資料表明Errors due incorrect labels所占的比例僅為0.6%,占dev set error的6%,而其它類型錯誤占dev set error的94%。是以,這種情況下,可以忽略incorrectly labeled data。

如果優化DL算法後,出現下面這種情況:

  • Overall dev set error: 2%
  • Errors due to other causes: 1.4%

上面資料表明Errors due incorrect labels所占的比例依然為0.6%,但是卻占dev set error的30%,而其它類型錯誤占dev set error的70%。是以,這種情況下,incorrectly labeled data不可忽略,需要手動修正。

我們知道,dev set的主要作用是在不同算法之間進行比較,選擇錯誤率最小的算法模型。但是,如果有incorrectly labeled data的存在,當不同算法錯誤率比較接近的時候,我們無法僅僅根據Overall dev set error準确指出哪個算法模型更好,必須修正incorrectly labeled data。

關于修正incorrect dev/test set data,有幾條建議:

  • Apply same process to your dev and test sets to make sure they continue to come from the same distribution
  • Consider examining examples your algorithm got right as well as ones it got wrong
  • Train and dev/test data may now come from slightly different distributions

3 Build Your First System Quickly then Iterate

對于如何建構一個機器學習應用模型,Andrew給出的建議是先快速建構第一個簡單模型,然後再反複疊代優化。

  • Set up dev/test set and metric
  • Build initial system quickly
  • Use Bias/Variance analysis & Error analysis to prioritize next steps

4 Training and Testing on Different Distribution

當train set與dev/test set不來自同一個分布的時候,我們應該如何解決這一問題,建構準确的機器學習模型呢?

以貓類識别為例,train set來自于網絡下載下傳(webpages),圖檔比較清晰;dev/test set來自使用者手機拍攝(mobile app),圖檔比較模糊。假如train set的大小為200000,而dev/test set的大小為10000,顯然train set要遠遠大于dev/test set。

吳恩達《建構機器學習項目》精煉筆記(2)-- 機器學習政策(下)

雖然dev/test set品質不高,但是模型最終主要應用在對這些模糊的照片的處理上。面對train set與dev/test set分布不同的情況,有兩種解決方法。

第一種方法是将train set和dev/test set完全混合,然後在随機選擇一部分作為train set,另一部分作為dev/test set。例如,混合210000例樣本,然後随機選擇205000例樣本作為train set,2500例作為dev set,2500例作為test set。這種做法的優點是實作train set和dev/test set分布一緻,缺點是dev/test set中webpages圖檔所占的比重比mobile app圖檔大得多。例如dev set包含2500例樣本,大約有2381例來自webpages,隻有119例來自mobile app。這樣,dev set的算法模型對比驗證,仍然主要由webpages決定,實際應用的mobile app圖檔所占比重很小,達不到驗證效果。是以,這種方法并不是很好。

第二種方法是将原來的train set和一部分dev/test set組合當成train set,剩下的dev/test set分别作為dev set和test set。例如,200000例webpages圖檔和5000例mobile app圖檔組合成train set,剩下的2500例mobile app圖檔作為dev set,2500例mobile app圖檔作為test set。其關鍵在于dev/test set全部來自于mobile app。這樣保證了驗證集最接近實際應用場合。這種方法較為常用,而且性能表現比較好。

5 Bias and Variance with Mismatched Data Distributions

我們之前介紹過,根據human-level error、training error和dev error的相對值可以判定是否出現了bias或者variance。但是,需要注意的一點是,如果train set和dev/test set來源于不同分布,則無法直接根據相對值大小來判斷。例如某個模型human-level error為0%,training error為1%,dev error為10%。根據我們之前的了解,顯然該模型出現了variance。但是,training error與dev error之間的內插補點9%可能來自算法本身(variance),也可能來自于樣本分布不同。比如dev set都是很模糊的圖檔樣本,本身就難以識别,跟算法模型關系不大。是以不能簡單認為出現了variance。

在可能伴有train set與dev/test set分布不一緻的情況下,定位是否出現variance的方法是設定train-dev set。Andrew給train-dev set的定義是:“Same distribution as training set, but not used for training.”也就是說,從原來的train set中分割出一部分作為train-dev set,train-dev set不作為訓練模型使用,而是與dev set一樣用于驗證。

這樣,我們就有training error、training-dev error和dev error三種error。其中,training error與training-dev error的內插補點反映了variance;training-dev error與dev error的內插補點反映了data mismatch problem,即樣本分布不一緻。

舉例說明,如果training error為1%,training-dev error為9%,dev error為10%,則variance問題比較突出。如果training error為1%,training-dev error為1.5%,dev error為10%,則data mismatch problem比較突出。通過引入train-dev set,能夠比較準确地定位出現了variance還是data mismatch。

總結一下human-level error、training error、training-dev error、dev error以及test error之間的內插補點關系和反映的問題:

吳恩達《建構機器學習項目》精煉筆記(2)-- 機器學習政策(下)

一般情況下,human-level error、training error、training-dev error、dev error以及test error的數值是遞增的,但是也會出現dev error和test error下降的情況。這主要可能是因為訓練樣本比驗證/測試樣本更加複雜,難以訓練。

6 Addressing Data Mismatch

關于如何解決train set與dev/test set樣本分布不一緻的問題,有兩條建議:

  • Carry out manual error analysis to try to understand difference between training dev/test sets
  • Make training data more similar; or collect more data similar to dev/test sets

為了讓train set與dev/test set類似,我們可以使用人工資料合成的方法(artificial data synthesis)。例如說話人識别問題,實際應用場合(dev/test set)是包含背景噪聲的,而訓練樣本train set很可能沒有背景噪聲。為了讓train set與dev/test set分布一緻,我們可以在train set上人工添加背景噪聲,合成類似實際場景的聲音。這樣會讓模型訓練的效果更準确。但是,需要注意的是,我們不能給每段語音都增加同一段背景噪聲,這樣會出現對背景噪音的過拟合,效果不佳。這就是人工資料合成需要注意的地方。

7 Transfer Learning

深度學習非常強大的一個功能之一就是有時候你可以将已經訓練好的模型的一部分知識(網絡結構)直接應用到另一個類似模型中去。比如我們已經訓練好一個貓類識别的神經網絡模型,那麼我們可以直接把該模型中的一部分網絡結構應用到使用X光片預測疾病的模型中去。這種學習方法被稱為遷移學習(Transfer Learning)。

吳恩達《建構機器學習項目》精煉筆記(2)-- 機器學習政策(下)

遷移學習之是以能這麼做的原因是,神經網絡淺層部分能夠檢測出許多圖檔固有特征,例如圖像邊緣、曲線等。使用之前訓練好的神經網絡部分結果有助于我們更快更準确地提取X光片特征。二者處理的都是圖檔,而圖檔處理是有相同的地方,第一個訓練好的神經網絡已經幫我們實作如何提取圖檔有用特征了。 是以,即便是即将訓練的第二個神經網絡樣本數目少,仍然可以根據第一個神經網絡結構和權重系數得到健壯性好的模型。

遷移學習可以保留原神經網絡的一部分,再添加新的網絡層。具體問題,具體分析,可以去掉輸出層後再增加額外一些神經層。

吳恩達《建構機器學習項目》精煉筆記(2)-- 機器學習政策(下)

總體來說,遷移學習的應用場合主要包括三點:

  • Task A and B have the same input x.
  • You have a lot more data for Task A than Task B.
  • Low level features from A could be helpful for learning B.

8 Multi-Task Learning

顧名思義,多任務學習(multi-task learning)就是建構神經網絡同時執行多個任務。這跟二進制分類或者多元分類都不同,多任務學習類似将多個神經網絡融合在一起,用一個網絡模型來實作多種分類效果。如果有C個,那麼輸出y的次元是(C,1)。例如汽車自動駕駛中,需要實作的多任務為行人、車輛、交通标志和信号燈。如果檢測出汽車和交通标志,則y為:

吳恩達《建構機器學習項目》精煉筆記(2)-- 機器學習政策(下)

值得一提的是,Multi-task learning與Softmax regression的差別在于Softmax regression是single label的,即輸出向量y隻有一個元素為1;而Multi-task learning是multiple labels的,即輸出向量y可以有多個元素為1。

多任務學習是使用單個神經網絡模型來實作多個任務。實際上,也可以分别建構多個神經網絡來實作。但是,如果各個任務之間是相似問題(例如都是圖檔類别檢測),則可以使用多任務學習模型。另外,多任務學習中,可能存在訓練樣本Y某些label空白的情況,這并不影響多任務模型的訓練。

總體來說,多任務學習的應用場合主要包括三點:

  • Training on a set of tasks that could benefit from having shared lower-level features.
  • Usually: Amount of data you have for each task is quite similar.
  • Can train a big enough neural network to do well on all the tasks.

順便提一下,遷移學習和多任務學習在實際應用中,遷移學習使用得更多一些。

9 What Is End-to-End Deep Learning

端到端(end-to-end)深度學習就是将所有不同階段的資料處理系統或學習系統子產品組合在一起,用一個單一的神經網絡模型來實作所有的功能。它将所有子產品混合在一起,隻關心輸入和輸出。

以語音識别為例,傳統的算法流程和end-to-end模型的差別如下:

吳恩達《建構機器學習項目》精煉筆記(2)-- 機器學習政策(下)

如果訓練樣本足夠大,神經網絡模型足夠複雜,那麼end-to-end模型性能比傳統機器學習分塊模型更好。實際上,end-to-end讓神經網絡模型内部去自我訓練模型特征,自我調節,增加了模型整體契合度。

10 Whether to Use End-to-End Deep Learning

end-to-end深度學習有優點也有缺點。

優點:

  • Let the data speak
  • Less hand-designing of components needed

缺點:

  • May need large amount of data
  • Excludes potentially useful hand-designed

繼續閱讀