天天看點

谷歌《機器學習速成課程》學習摘要機器學習概念機器學習工程機器學習現實世界應用示例總結

機器學習概念

機器學習簡介

架構處理

深入了解機器學習

降低損失

使用TF的基本步驟

泛化

訓練集和測試集

驗證

表示法

特征組合

正則化:簡單性

邏輯回歸

分類

正則化:稀疏性

神經網絡簡介

訓練神經網絡

多類别神經網絡

嵌入

機器學習工程

生産環境機器學習系統

靜态訓練與動态訓練

靜态推理與動态推理

資料依賴關系

視訊講座

視訊講座總結

機器學習系統的行為取決于其輸入特征的行為和品質。當這些特征的輸入資料發生更改時,您的模型也會随之變化。有時,這種變化是可取的,有時則反之。

在傳統的軟體開發中,您的注意力更多地放在代碼而非資料上。在機器學習開發中,雖然編碼仍是工作的一部分,但您必須同時關注資料。例如,在傳統的軟體開發項目中,編寫單元測試來驗證代碼是一種最佳做法。而在機器學習項目中,您還必須不斷地對輸入資料進行測試、驗證和監控。

例如,您應該持續監控您的模型以移除不用(或很少使用)的特征。假設某一特定特征對模型貢獻很少或沒有貢獻。如果該特征的輸入資料突然發生更改,則您模型的行為也可能會以意想不到的方式突然發生變化。

可靠性

以下是針對輸入資料的可靠性詢問的一些問題:

信号是否始終可用?信号來源是否不可靠?例如:

信号是否來自因負載過重而崩潰的伺服器?

信号是否來自每年 8 月去度假的人群?

版本控制

以下是針對版本控制詢問的一些問題:

計算此資料的系統是否發生過變化?如果是:

多久一次?

您如何知道系統發生變化的時間?

有時資料來自上遊程序。如果該程序突然發生變化,您的模型可能會受到影響。

請考慮為從上遊程序接收的資料建立您自己的副本。然後,隻有當您确定這樣做安全時,才跳轉到下一版上遊資料。

必要性

以下問題可以提醒您留意正則化:

特征的實用性是否能證明值得添加此特征?

人們往往傾向于向模型添加更多特征。例如,假設您找到一個新特征,添加該特征可讓您的模型略微準确一點。較高的準确率聽起來當然比較低的準确率更好。不過,現在您隻是增加了自己的維護負擔。添加的特征可能會意外降級,是以需要對它進行監控。在添加會帶來短期利好的特征之前,請謹慎考慮。

相關性

某些特征會與其他特征相關聯(正相關或負相關)。問問自己以下問題:

是否有任何特征密不可分,以至于需要采取額外政策來梳理它們?

回報環

有時,模型會影響其自身的訓練資料。例如,來自某些模型的結果反過來是同一模型的直接或間接輸入特征。

有時,一個模型會影響另一個模型。以下列兩個股價預測模型為例:

模型 A - 不理想的預測模型。

模型 B。

由于模型 A 有誤,是以會導緻錯誤地決定購買股票 X 的股票,而購買這些股票會擡高股票 X 的價格。模型 B 将股票 X 的股價用作輸入特征,是以它很容易對股票 X 的價值得出錯誤結論。然後,模型 B 會根據模型 A 的錯誤行為購買或銷售股票 X 的股份,反過來,模型 B 的行為會影響模型 A,而這樣很可能會觸發郁金香狂熱效應或導緻 X 公司的股價下滑。

檢查您的了解情況

機器學習現實世界應用示例

癌症預測

标簽洩漏

18世紀文學

資料集的拆分

現實世界應用準則

下面簡要說明了有效的機器學習準則:

1.確定第一個模型簡單易用。

2.着重確定資料管道的正确性。

3.使用簡單且可觀察的名額進行訓練和評估。

4.擁有并監控您的輸入特征。

5.将您的模型配置視為代碼:進行稽核并記錄在案。

6.記下所有實驗的結果,尤其是“失敗”的結果。

總結

後續步驟

課程是過了一遍,了解十分有限,姑且寫寫,未完待續。

繼續閱讀