天天看點

機器學習在商業領域大有作為,但還需要跨過資料和政策的難關

基于資料分析的機器學習(ML)正在重寫企業處理資料的規則。機器學習和分析的研究已經在資料科學家的幫助下将大量資料形式轉化成分析規則。現在,機器學習已經進入商業世界。但是,大多數公司并沒有真正了解機器學習如何給他們的商業方式帶來變化——或者如何改變組織在這個過程中的形态。公司希望通過機器學習進行流程自動化或完成資料驅動的任務來提高人的能力。而且,通過機器學習,企業也有可能變成供應商——從他們自己龐大的資料存儲庫中吸取經驗教訓,并将其授權給軟體和服務提供商。

但是,實作這一目标将取決于未來5年機器學習能力的發展,以及這一進化對今天的長期招聘政策的影響。在無人監督的機器學習中,系統得到了大量的資料集,并且希望在沒有人類的幫助下弄清楚自己需要尋找什麼。

寶潔公司商業智能和分析服務總監 David Dittman 解釋說,自己與其他大型美國公司面臨的分析難題是“他們正在被‘機器學習和分析’技術所吸引,而不了解他們必須‘為它’建立基礎,因為很艱難,很昂貴,而且需要遠見。“ 相反, Dittman 說,公司錯誤地認為機器學習能夠滿足他們的願景:“我不能讓人工智能告訴我答案嗎?”問題在于“人工智能”并沒有真正發揮他們想要的作用。

機器學習目前分為兩大類:監督和無監督。如果沒有堅實的資料基礎,這兩種方式都不可行。

(Yisong Yue是加州理工學院計算和數學的助理教授,他認為無人監督的機器學習在放射影像中診斷癌症等領域具有巨大的應用前景)

有監督的機器學習要求人類建立訓練資料集,并驗證訓練的結果。加州理工學院的計算機和數學助理教授Yisong Yue解釋說,語音識别是這方面的一個主要例子。“語音識别是在高度監督的方式下進行的,”Yue說。“你要從龐大的資料開始,先讓人們說出某些特定的句子。”

但 Yue 說,收集并将足夠的資料進行分類以此來監督訓練是很有挑戰性的。“想象一下,用各種各樣的方式說出這些句子是多麼的昂貴。資料科學家們需要對這些東西進行注釋,這對于你想要解決的每一個任務來說都是無法擴充的。有監督的機器學習有一個基本的限制。”

無監督的機器學習減少了這種互相作用的影響。資料科學家選擇一個大概的資料集,并且告訴軟體找到其中的模式,不需要人首先弄明白軟體需要尋找什麼。由于需要的人工任務非常少,是以沒有監督的機器學習(特别是在人工工作負載方面)的可伸縮性要高得多。但是,“無監督”一詞可能會産生誤導,其實資料科學家還是需要選擇資料來進行檢查。

Forrester Research 副總裁兼進階分析和機器學習首席分析師 Mike Gualtieri 說:“無人監督的機器學習軟體被要求發現可能有用的資料叢集,而人類則分析這些資料,并決定下一步做什麼。”人們仍然需要對軟體建立的資料分組進行分析。

但無人監督的機器學習的收益可能會更廣泛。例如, Yue 說,無監督學習可能會在諸如癌症診斷等醫療任務中得到應用。他解釋說,标準的診斷工作包括進行活體檢查并将其送到實驗室。問題在于,活組織檢查本身就是人力密集型的分析工作 ,耗時且昂貴。當醫生和患者需要立即知道是否是癌症時,等待活檢結果可能會有醫療風險。今天,一位放射科醫生通常會觀察組織,他解釋說,“放射科醫師會做出一個預測——包含癌變組織的可能性。”

“有了足夠大的訓練資料,這可能是一種監督機器學習的應用,”Yue說。“假設我們取了這個資料表——組織的圖像和活檢結果——然後進行了監督的ML分析。“這将是一種勞動密集型的工作,但它可以檢測到活檢呈陽性的圖像的相似性。

但是,Yue問道,如果把這個過程當做一個沒有監督的學習努力,又該怎麼辦呢?

“假設我們有一個圖像資料集,但我們沒有活檢結果,我們可以用它來确定我們可以用叢集來預測什麼。”假設樣本數為1,000。軟體會對圖像進行分組,并尋找所有的相似點和不同點,這是基本的模式識别。“假設它找到了10個這樣的簇,假設我隻能承受10次活組織檢查。”我們可以選擇從每一個叢集中測試一個,”Yue說。“這隻是一系列步驟中的第一步,當然,這是對多種癌症的研究。”

雷鋒網了解到,無人監督的學習仍然需要人為其發現的資料叢集或模式進行評價,它目前更适合通過突出顯示可能感興趣的資料模式來提高人類的表現。但是,有些地方可能很快就會由資料的品質和數量來改變。

 Dittman 說:“我認為,現在人們正在大步跨入自動化,但是人們應該把注意力集中在擴大現有的決策過程上,”“5年後,我們将擁有合适的資料資産,然後你将需要更多的自動化和更少的擴充。”但現在還不是時候。今天,機器學習缺乏可用的資料。它不夠細分,寬度上也不夠。”

即使機器學習的資料分析變得更加複雜,但我們還不清楚它會怎麼改變公司 IT 組織的架構。 Forrester 的 Gualtieri 預計,從現在起五年後,資料科學家的需求就會減少,這種情況就和網頁開發人員類似。1995年對網頁的Web開發人員的需求遠遠超過2000年,因為許多網頁功能都是自動化并作為子產品化腳本出售。他表示,機器學習也可能出現類似的轉變,因為軟體和服務提供商開始向商業機器學習平台提供應用程式程式設計接口。

 據雷鋒網了解,Gualtieri 預計,企業的“建構或購買”模式将會發生一個簡單的變化。他解釋說:“今天,你将會做出一個決定,雇傭更多的資料科學家。”随着這些api進入市場,它将轉向“購買”,而不是“建構”。他補充說,“我們現在看到了這種情況的開始。”其中有幾個例子是“Clarifai”,它是一家位于紐約的初創公司,可以通過視訊搜尋特定的時刻,比如觀看數千個婚禮視訊,學習交換戒指的儀式,或者“你可以親吻新娘”,從圖像中确定某人的情緒。

 Dittman 同意 Gualtieri 的觀點,公司可能會建立許多專門的腳本來進行機器學習任務的自動化。但他不同意這将導緻五年内計算機科學工作的減少。

 Dittman 解釋說:“如果你看一下實踐資料科學家的數量,那将會大幅增加,但它将會比技術的數字化要慢得多,因為機器學習會進入越來越多的空白領域。“考慮開放源代碼趨勢,資料科學家工具從代碼生成到代碼重用,進而開始變得更加容易和易用。

加州理工學院的 Yue 認為,資料科學家的需求将繼續上升,因為機器學習的成功将會有更多的機器學習嘗試。随着技術的進步,他解釋說,越來越多的企業機關将能夠利用機器學習,這意味着需要更多的資料科學家來編寫這些程式。

推動資料科學家持續需求的部分原因是對資料的渴求,使其更有效。 Gualtieri 看到了一些企業——大約5年之後,也将扮演供應商的角色。他說:“波音可能會成為特定領域機器學習的供應商,并将這些子產品賣給那些可能成為客戶的供應商。”

寶潔公司的 Dittman 認為,分析資料的兩端都是資料,而代碼則是高銷售的,這可能是企業的一個新的主要收入來源。他解釋說:“公司将開始從資料中獲利。”“資料行業将會爆炸。資料絕對是爆炸式增長,但缺乏資料政策。獲得業務案例所需的正确資料,這往往是一個挑戰。”

但 Yue 有不同的顧慮。他說:“五年後,機器學習自然會與法律問題相沖突,我們對歧視,受保護的階級有很嚴格的法律。“如果你使用資料算法來決定向誰貸款,你怎麼知道這不是歧視性的?這是政策制定者的一個問題。”

 Yue 提供了一個軟體的例子,該軟體發現了消費者貸款拖欠和那些白人消費者之間的相關性。該軟體可以掃描每個客戶的眼睛顔色,并使用這些資訊來決定是否準許貸款。“如果一個人做出了這個決定,就會被認為是歧視性的,” Yue 說。

這個法律問題說明了資料分析師在無監督機器學習中的核心作用。該軟體的工作是找到連結,但它表面上是人來決定如何處理這些連結。不管怎樣,人力資源部門需要在相當長的一段時間内招募更多的資料科學家。

本文作者:李雨晨

繼續閱讀