為了成為一個機器學習公司,你需要工具和流程去克服資料、工程和模型方面的挑戰。
在過去的這些年,為了建構基礎設施,資料社群專注于聚集和收集資料,并使用資料來改進決策。我們現在可以看到,對先進的分析和機器學習的興趣在許多行業的垂直方領域上激增。
在這篇文章中,我分享了我去年9月在紐約Strata Data 公司釋出的一篇演講中的幻燈片和筆記,為大家提供一些對增強公司機器學習能力的建議。這些資訊來自于在許多不同的問題領域中,應用機器學習的前沿的實踐者、研究人員和企業家的對話。

與其他技術或方法一樣,一個成功的機器學習項目從确定正确的用例開始。例如,機器學習推薦和減少客戶流失的應用有很多,但對于應用程式來說,一個有用的分類有如下幾點:
1.提高決策的應用程式
2.改進商業營運的應用程式
3.産生收入的應用程式
4.可以幫助預測或防止欺詐或風險的應用程式
為了成為一個“機器學習公司”,當你開始構模組化型時,首先你要熟悉你将要面對的關鍵障礙是什麼。如果你咨詢主要的從業者,通常會有三件事:
1.資料:現在大多數應用都依賴于監督學習,是以一切都從品質良好的标記(訓練)資料集開始。
2.工程:你如何使用一個原型并生産它?在部署到生産環境之後,如何監視模型?
3.模型:雖然現代的機器學習庫使你更容易将模型與你的資料比對,但仍然存在一些挑戰
在這篇文章的剩餘部分,我将講解如何面對這些挑戰。
在建構用于訓練機器學習模型的标記資料集時,使用已通路的資料非常重要。随着新的資料源不斷地出現在網絡上,對大多數公司來說,資料內建是一項正在進行的工作——你目前對資料基礎設施的投資甚至可以讓你獲得足夠的資料來啟動。你還可以使用公開的(開放的)資料或你可以從第三方提供商購買的資料來豐富現有的資料集。
好消息是機器學習社群意識到訓練資料是一個主要的瓶頸。是以研究人員一直緻力于那些讓你從較少的訓練資料(弱監督)開始或者允許你将一個問題中得到的知識用于另一個環境(轉移學習)的研究。
随着資料越來越重要,有一些初創公司和公司在探索資料交換。資料交換使組織可以在保護隐私和機密的同時共享一些資料。同時,也有一些類似的研究,緻力于開發安全的機器學習算法。在消費者金融領域存在應用欺詐檢測,例如,如果隐私和安全能夠得到保證,那麼在機密資料上共享學習可能是有價值的。
今年早些時候,我們觀察到,公司開始在建構機器學習模型和監控他們的行為方面創造了一個新的角色。但是機器學習工程師的新角色真的是必要的嗎?
對于越來越多的公司來說,答案是:是的,這樣的專家很需要。如果你建立了一個你需要知道的關于生産和監控模型的清單,那麼你将得到一組廣泛的工具和技術。
機器學習的研究正在飛速發展。公平地說,大多數公司都無法跟上研究人員釋出的所有新技術和新工具。想象以下的實驗:在接下來的五年裡,進展會停滞不前(非常不可能,自我幽默一下)。我認為,有足夠的工具可以讓公司在很長一段時間裡保持忙碌。
深度學習,一種已經成功應用于計算機視覺和語言問題的技術。大多數公司仍處于将深度學習應用于熟悉的資料類型(文本、時間序列、結構化資料)或使用它來替換現有模型(包括它們目前推薦系統)的早期階段。我希望在接下來的幾年裡能看到許多有趣的,涉及到深層神經網絡(DNN)的案例研究,。
随着關于深度學習的所有激動人心的一面,我們有時會忘記有很多有趣的,不依賴于神經網絡的新資料應用。
随着模型被推向先進裝置,我對最近在協作學習方面的工作感到興奮。展望人工智能,線上學習和持續學習的工具将是必不可少的。
資料社群開始認識到,除了優化定量或業務名額之外,還需要更多的模型。模型是否強大到能抵禦對抗性攻擊?在某些應用程式模型中必須是可解釋和可了解的。
透明度:随着機器學習變得越來越流行,使用者對那些被最優化的計量機構的了解和發言權越來越感興趣。
盡管近年來這一領域取得了很大進展,但研究人員和理論家們仍不清楚這一點。我們仍然處在一個“試錯”的時代。深度學習可能減少了對人工特征工程的需求,但是仍然有很多決策傾向于建立一個DNN(包括網絡架構和許多超參數的選擇)。
我們可以把模型建構看作是探索機器學習算法的空間。企業需要能夠以一種有原則和高效的方式進行探索。這意味着維護可重複的管道,從實驗中節省中繼資料,協作工具,并利用最近的研究成果。
那麼,公司在做什麼來讓這種探索成為可能呢?大多數機器學習都需要标記(訓練)資料,是以任何平台都從輸入資料存儲系統的強大資料管道開始,資料科學家和機器學習工程師可以通路這個資料存儲系統。對于所有公司來說,資料內建是一項重要的、持續的練習。
領先的公司讓他們的資料科學家使用幾個機器學習庫。強迫你的資料科學家使用一兩個“開發中的”庫是很瘋狂的。他們需要能夠進行實驗,這可能意味着讓他們使用各種各樣的庫。
要成為一個“機器學習公司”,你需要工具和流程來克服資料、工程和模型方面的挑戰。公司剛剛開始在他們的産品中使用和部署機器學習。工具仍在不斷完善,最佳實踐才剛剛開始出現。
原文網址:
https://www.oreilly.com/ideas/how-companies-can-navigate-the-age-of-machine-learning