天天看點

機器學習的挑戰:在開始之前需要知道什麼

機器學習的回報是衆所周知的,它可能會讓您想現在就開始。然而,與此同時,在開始自己的項目之前,您應該考慮一下機器學習的挑戰。

這篇文章并不是要吓跑您,相反,這樣做是為了確定您做好了準備,并在開始之前仔細考慮所需注意的事項。

本文據資料科學家Brian MacDonald訪談,他談到了他所看到的陷阱,以及公司可以采取哪些措施來避免這些陷阱。

這些機器學習的挑戰包括:

• 解決技能差距

• 知道如何管理您的資料

• 資料運

1. 解決機器學習技能的差距

當然,最大的困難是在大資料環境中使用機器學習的技能差距。有一群人認為大資料讓生活更美好,而且很容易上手。

您将發現最大的挑戰是找到合适的人。機器學習的人才需求量很大,可供選擇的人才很少。但獲得高管的支援是實作這一目标的關鍵。如果您有高層管理人員的支援,那麼您還将獲得尋找和招募這些寶貴人才的資金。

這是要考慮的事情:如果您處于一種由于經驗豐富的資料科學家很昂貴而對成本非常敏感的情況,那麼你可能沒有足夠大的商業問題來讓機器學習變得值得去做。

假設一位經驗豐富的資料科學家要花費您公司3-40萬美元(包括所有的福利和獎勵)。如果該人不能幫助您解決每年至少價值一百萬美元的問題,那麼您可能不需要他。對嗎?

另一方面,如果您真的相信這個人(或團隊)可以幫助您解決數千萬的問題,那麼您還在等什麼呢?

很難找到人。但如果這對您的公司真的很重要,您可以找到他們。

這裡還有一個需要考慮的問題:工具和軟體。當然,有一些工具會有所幫助,但您很難立即找到您需要的:準确的、完美的、開箱即用的機器學習工具。您必須考慮将要使用的工具。

Python, R, SQL, TensorFlow…如果您使用它們,它們将如何與您的資料湖一起工作?您将如何處理可能帶來挑戰的設定和配置?開始之前請仔細考慮所有細節,并確定您有足夠的資金。

2.知道如何管理大資料

機器學習是一個混亂的過程。僅僅擁有一個大資料平台并不意味着它會變得更容易。事實上,這可能會使它變得更混亂,因為您将擁有更多的資料。這些資料使您能夠做更多的工作,但這也意味着必須完成更多的資料準備工作。

你必須全盤考慮如何處理這個問題。以下是一些需要思考的問題:

• 您的資料來自哪裡?

• 您打算怎樣處理這個問題?

• 您希望如何處理資料準備工作?

• 完成後,您将如何構模組化型并實作所有操作?

如果您還沒有一個好的BI實踐或分析實踐,如果您還沒有以您能想到的所有方式使用資料,那麼跳到機器學習将是一個真正的挑戰。已經有資料驅動的決策絕對至關重要。如果您還沒有,我們建議您在開始機器學習之前就做好了準備。

如果您決定開始,那麼這裡還有其他一些注意事項。在開始之前,請仔細考慮它們:

快速變化:在機器學習的世界裡,創新來的很快,這意味着快速的變化。今天的好東西明天可能就不那麼好了,而且你不能總是依賴軟體,因為它是一個更不穩定的空間。不同的版本和沖突可能會帶來更多的問題。

龐大的資料量:借助機器學習,您将不得不處理大量資料以及許多不同類型的資料。了解您是否使用所有這些資訊,過程,是否采樣等都是挑戰,尤其是當您深入了解資料并處理資料移動時。

確定您已準備好應對挑戰,并制定了計劃。

3.大資料的運作

大多數資料科學家面臨的最大問題是什麼?是資料的運作。

假設您已經建立了一個模型,它可以預測導緻客戶流失的因素。您如何把這個模型推廣給那些能影響這些數字的人?您如何将其導入CRM系統或移動應用?

如果您擁有可以預測裝置故障的模型,那麼如何及時将其告知操作員以防止發生故障?建立模型并使之可行具有許多挑戰。對于當今的資料科學家來說,這可能是最大的技術挑戰。

您可以建立世界上最漂亮的模型。但是,您的最高管理層真的會真正在意這是否會對公司的利潤産生影響嗎?您可能認為您的這部分交易隻是為了讓資料可用。但事實并非如此。您必須確定實際使用您的資料,獲得主管的支援對此很有幫助。

是以,機器學習并不是很容易。但這可以成就大事。

解決技能差距,管理資料并對其進行運作是嘗試機器學習技術需要解決的挑戰,但可以解決,且結果往往是令人驚喜的。

(由怡海軟體

http://www.frensworkz.com/

編譯自:Sherry Tiao,轉載請注明出處)