天天看點

入門 | 做資料科學如烤蛋糕?不服來看

面部識别、自動駕駛、機器人統治世界?!還有那個令人毛骨悚然的機器人女孩,索菲亞。emmm…還有黑鏡?

我們想知道它們都是怎麼工作的。「這全是人工智能。」是的。但我們想知道更多。

資料科學、人工智能、大資料、機器學習等都是最近的熱門詞彙。它們大多與谷歌、蘋果和亞馬遜等大型科技公司有關。

幸運的是,你不用成為一名資料科學家就能對資料科學有所了解。隻要你對此熱愛、好奇即可。

什麼是資料科學?

要事第一!

入門 | 做資料科學如烤蛋糕?不服來看

向亞馬遜的聊天機器人尋求答案

資料科學使用數學和不同的機器學習方法(也稱算法)來實作不同目的。

機器學習(ML)是編寫計算機程式的科學和藝術,它使計算機具有了學習能力。你的計算機現在可以從它觀察到的資料中學習,而不是像在傳統計算機程式中那樣盲目地遵循一套固定規則。你罵電腦是笨蛋的日子一去不複返了。

但是資料科學在哪裡發揮作用呢?就在我們身邊。Facebook 給你推薦可能認識的人、Youtube 預測股票市場價格的推薦系統,都需要資料科學。

資料科學按照一系列步驟來獲得這些答案,而使用機器學習算法隻是其中之一。

資料科學流程綜述

我們要明白這樣一個事實:無論電腦學什麼,它都是從資料中學習。将資料視為配料、資料預處理視為食譜、機器學習算法視為烤箱、最終結果視為蛋糕。蛋糕的美味程度取決于原料的品質、食譜和烤箱溫度設定。同樣地,資料的品質非常重要,你采用的方法也是如此。

入門 | 做資料科學如烤蛋糕?不服來看

資料科學流程抽象圖

資料和資料預處理

是以,第一步是收集資料并進行處理。就像你要買食材一樣。

還需要確定資料與将要解決的問題相關。弄清楚需要多少資料,以及資料的形式(或格式),就像做蛋糕你要方糖還是砂糖?真實世界的資料集通常以表格形式顯示,例如.xls、.csv 或.json 等。

有大量不同的算法可以幫助你進行資料清理和預處理。訓練模型的資料會極大地影響模型性能。就像食譜決定蛋糕的味道。

資料集類型

資料集是以适當格式收集所有示例的集合。它可以是一個*标注的*資料集,也可以是一個*未标注的*資料集。

标注的資料集是指具有特征值及其結果的資料集。而未标注的資料集中隻有特征值。

特征好比不同的食材,如:牛奶、黃油、糖和雞蛋是四個不同的特征。這些特征的結果是一個蛋糕。是特征幫你得到結果。

這是真實資料集的樣子:

入門 | 做資料科學如烤蛋糕?不服來看

用于預測房價的标注資料集

選擇機器學習算法

一旦資料集準備好了,就該使用機器學習算法了。這就是把蛋糕糊放進烤箱。

資料集和标簽幫助你确定使用哪種算法。就像如果你想做一些冰淇淋,你需要的不是烤箱而是冰箱。你的配料和配方也會改變。

入門 | 做資料科學如烤蛋糕?不服來看

可供選擇的算法

訓練、測試、預測!

隻學習測試中會出現的題目,你絕對會通過測試。但遇到沒見過的題,就不會考得很好了。我們希望模型即使在沒見過的例子上也能表現得很好。為了確定這一點,我們采用了一種技術。

我們将資料集分為兩組:訓練集和測試集。通常以 7:3 的比例來劃分,這樣有利于訓練。

我們的模型僅從訓練集的例子中學習。這樣劃分資料集可以幫助我們評估模型表現,明确提升空間。

入門 | 做資料科學如烤蛋糕?不服來看

訓練-測試分解圖

測試很簡單。你問,模型答,然後給模型打分。它起作用是因為你是在未見過的例子上評估模型。通過的标準取決于你的需求。通常 80% 的通過率是可以達到的。

如果模型在第一次嘗試中失敗,不要失望,因為在最初的嘗試中失敗是很正常的。這是因為開始時你總是使用較簡單的方法,然後根據測試得分,逐漸增加解決方案的複雜性。但在此之前,請重新評估你的資料集以及它的預處理方式。重複此過程,直到模型通過測試。

入門 | 做資料科學如烤蛋糕?不服來看

測試模型

一旦模型通過測試,就可以投入使用。換句話說,它為實時預測做好了準備。

提示:保持測試集中的資料模式與訓練集中的資料模式相同。

資料可視化

既然你已經烤好了蛋糕,而且看起來很好吃,那就該上桌了。也許可以加一些糖霜,把它放在一個漂亮的托盤裡等等。讓它看起來更美味。

這就是資料可視化。通過制作圖表,你可以利用不同的資料可視化技術向閱聽人傳達你對資料的了解。資料可視化可以在任何階段進行,你可以在訓練集中繪制現有的基礎圖案。

入門 | 做資料科學如烤蛋糕?不服來看

就像我說的,你不用成為資料科學家就能對資料科學有所了解。希望你喜歡我剛烤好的

原文釋出時間為:2018-10-16

本文作者:Azika Amelia

本文來自雲栖社群合作夥伴“

CDA資料分析師

”,了解相關資訊可以關注“

”。

繼續閱讀