開發者成功使用機器學習的十大訣竅

在提供發現埋藏資料深層的模式的能力上，機器學習有着潛在的能力使得應用程式更加的強大并且更能響應使用者的需求。精心調校好的算法能夠從巨大的并且互不相同的資料源中提取價值，同時沒有人類思考和分析的限制。對于開發者而言，機器學習為應用業務的關鍵分析提供了希望，進而實作從改善客戶體驗到提供産品推薦上升至超個性化内容服務的任何應用程式。

像amazon和micorosoft這樣的雲供應商提供雲功能的機器學習解決方案，承諾為開發者提供一個簡單的方法，使得機器學習的能力能夠融入到他們的應用程式當中，這也算是最近的頭條新聞了。承諾似乎很好，但開發者還需謹慎。

對于開發人員而言，基于雲的機器學習工具帶來了使用機器學習創造和提供新的功能的可能性。然而，當我們使用不當時，這些工具會輸出不好的結果，使用者可能會是以而感到不安。測試過微軟年齡檢測機器學習工具的人都會發現，伴随即插即用的易用性而來的是主要的精度問題——對于關鍵應用程式或者是重大決策，它應該不值得信賴。

想要在應用程式中成功地融入機器學習的開發者，需要注意以下的一些關鍵要點：

1. 算法使用的資料越多，它的精度會更加準确，是以如果可能要盡量避免抽樣。機器學習理論在預測誤差上有着非常直覺的描述。簡而言之，在機器學習模型和最優預測（在理論上達到最佳可能的誤差）之間的預測誤差的差距可以被分解為三個部分：

由于沒有找到正确函數形式的模型的誤差

由于沒有找到最佳參數的模型的誤差

由于沒用使用足夠資料的模型的誤差

如果訓練集有限，它可能無法支撐解決這個問題所需的模型複雜性。統計學的基本規律告訴我們，如果我們可以的話，應該利用所有的資料而不是抽樣。

2. 對給定的問題選擇效果最好的機器學習算法是決定成敗的關鍵。例如，梯度提升樹（gbt）是一個非常受歡迎的監督學習算法，由于其精度而被業内開發人員廣泛使用。然而，盡管其高度受歡迎，我們也不能盲目的把這種算法應用于任何問題上。相反，我們使用的算法應該是能夠最佳地拟合資料特征同時能夠保證精度的算法。

為了證明這個觀點，嘗試做這樣一個實驗，在資料集 the popular text categorization dataset rcv1上測試gbt算法和線性支援向量機（svm）算法，并比較兩者的精度。我們觀察到在這個問題上，就錯誤率而言，線性svm要優于gbt算法。這是因為在文本領域當中，資料通常是高維的。一個線性分類器能夠在n-1維當中完美的分離出n個樣本，是以，一個樣本模型在這種資料上通常表現的更好。此外，模型越簡單，通過利用有限的訓練樣本來避免過拟合的方式學習參數，并且提供一個精确的模型，産生的問題也會随之越少。

另一方面，gbt是高度非線性的并且更加強大，但是在這種環境中卻更難學習并且更容易發生過拟合，往往結果精度也較低。

3. 為了得到一個更好的模型，必須選擇最佳的的算法和相關的參數。這對于非資料科學家而言可能不容易。現代的機器學習算法有許多的參數可以調整。例如，對于流行的gbt算法單獨的就有十二個參數可以設定，其中包括如何控制樹的大小，學習率，行或列的采樣方法，損失函數，正則化選項等等。一個特有的項目需要在給定的資料集上為每一個參數找到其最優值并且達到最精準的精度，這确實不是一件容易的事。但是為了得到最佳的結果，資料科學家需要訓練大量的模型，而直覺和經驗會幫助他們根據交叉驗證的得分，然後決定使用什麼參數再次嘗試。

4. 機器學習模型會随着好的資料而變得更好，錯誤的資料收集和資料處理會降低你建立預測和歸納的機器學習模型的能力。根據經驗，建議仔細審查與主題相關的資料，進而深入了解資料和幕後資料的生成過程。通常這個過程可以識别與記錄、特征、值或采樣相關的資料品質問題。

5. 了解資料特征并改進它們（通過創造新的特征或者去掉某個特征）對預測能力有着高度的影響。機器學習的一個基本任務就是找到能夠被機器學習算法充分利用的豐富特征空間來替代原始資料。例如，特征轉換是一種流行的方法，可以通過在原始資料的基礎上使用數學上的轉換提取新的特征來實作。最後的特征空間（也就是最後用來描述資料的特征）要能更好的捕獲資料的多複雜性（如非線性和多種特征之間的互相作用），這對于成功的學習過程至關重要。

6. 在應用中，選擇合适的靈感來自商業價值的目标函數/損失函數對于最後的成功至關重要。幾乎所有的機器學習算法最後都被當成是一種優化問題。根據業務的性質，合理設定或調整優化的目标函數，是機器學習成功的關鍵。

以支援向量機為例，通過假設所有錯誤類型的權重相等，對一個二分類問題的泛化誤差進行了優化。這對損失敏感的問題并不合适，如故障檢測，其中某些類型的錯誤比重可能比其它類型的要高。在這種情況下，建議通過在特定的錯誤類型上，增加更多的懲罰來解釋它們的權重，進而調整svm的損失函數。

7. 確定正确地處理訓練資料和測試資料，如此當在生産中部署該模型時，測試資料能夠模拟輸入資料。例如，我們可以看到，這對于時間依賴性資料是多麼的重要。在這種情況下，使用标準的交叉驗證方法進行訓練，調整，那麼測試模型的結果可能會有偏差，甚至會不準确。這是因為在實施平台上它不能準确的模拟輸入資料的性質。為了糾正這一點，在部署時我們必須仿照模型來部署使用。我們應該使用一個基于時間的交叉驗證，用時間較新的資料來驗證訓練模型。

8. 部署前了解模型的泛化誤差。泛化誤差衡量模型在未知資料上的性能好壞。因為一個模型在訓練資料上的性能好并不意味着它在未知的資料上的表現也好。一個精心設計的模拟實際部署使用的模型評估過程，是估計模型泛化誤差所需要的。

一不留心就很容易違反交叉驗證的規則，并且也沒有一種顯而易見的方法來表現交叉驗證的非正确性，通常在你試圖尋找快捷方式計算時發生。在任何模型部署之前，有必要仔細注意交叉驗證的正确性，以獲得部署性能的科學評估。

9.知道如何處理非結構化和半結構化資料，如文本、時間序列、空間、圖形或者圖像資料。大多數機器學習算法在處理特征空間中的資料時，一個特征集代表一個對象，特征集的每一個元素都描述對象的一個特點。在實際當中，資料引進時并不是這種格式化的形式，往往來自于最原始的格式，并且最後都必須被改造成機器學習算法能夠識别的理想格式。比如，我們必須知道如何使用各種計算機視覺技術從圖像中提取特征或者如何将自然語言處理技術應用于影片文本。

10.學會将商業問題轉換成機器學習算法。一些重要的商業問題，比如欺詐檢測、産品推薦、廣告精準投放，都有“标準”的機器學習表達形式并且在實踐當中取得了合理的成就。即使對于這些衆所周知的問題，也還有鮮為人知但功能更強大的表達形式，進而帶來更高的預測精度。對于一般在部落格和論壇中讨論的小執行個體的商業問題，适當的機器學習方法則不太明顯。

如果你是一個開發者，學習這十個通往成功的訣竅可能似乎是一個艱難的任務，但是不要氣餒。事實上，開發者不是資料科學家。認為開發人員可以充分利用所有的機學習工具是不公平的。但是這并不意味着開發人員沒有機會去學習一些有水準的資料科學進而改進他們的應用。随着适當的企業解決方案和自動化程度的提高，開發人員可以做模型建構到實施部署的一切事情，使用機器學習最佳實踐來保持高精度。

自動化是在應用程式中擴充機器學習的關鍵。即使你能夠供得起一批小的資料科學家團隊和開發者攜手合作，也沒有足夠的人才。像skytree的automodel（自動化模型）能夠幫助開發者自動地确定最佳的參數并且使得算法得到最大的模型精度。一個易于使用的接口可以引導開發人員通過訓練加工，調整并且測試模型來防止統計上的錯誤。

自動化機器學習過程，有許多方式，包括資料科學家或開發者的人工智能原理，允許算法去思考，學習并且承受更多的模組化重任。也就是說，認為資料科學家能夠從機器學習中解耦是錯誤的，特别是在關鍵任務模型上。謹防這種能夠簡單使用機器學習功能的承諾，即能夠在不需要正确複雜的思考下或者可擴充的應用技術下就使用機器學習——這通常并不會得到高預測精度和機器學習提供的高商業價值結果。更糟糕的是，在應用程式中使用不好的模型實際上可能會适得其反，并迅速在其使用者之間建立不信任的産品或服務。

作者簡介：alexander gray，skytree首席技術官，佐治亞理工學院計算機學院副教授，主要緻力于大規模資料集的機器學習算法技術研發，1993年開始在nasa噴氣推進實驗室機器學習系統小組從事大規模科學資料的工作。

譯者簡介：劉帝偉，中南大學軟體學院在讀研究所學生，關注機器學習、資料挖掘及生物資訊領域。

原文釋出時間為：2015-07-15

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

開發者成功使用機器學習的十大訣竅

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希