機器學習概念
機器學習簡介
架構處理
深入了解機器學習
降低損失
使用TF的基本步驟
泛化
訓練集和測試集
驗證
表示法
特征組合
正則化:簡單性
邏輯回歸
分類
正則化:稀疏性
神經網絡簡介
訓練神經網絡
多類别神經網絡
嵌入
機器學習工程
生産環境機器學習系統
靜态訓練與動态訓練
靜态推理與動态推理
資料依賴關系
視訊講座
視訊講座總結
機器學習系統的行為取決于其輸入特征的行為和品質。當這些特征的輸入資料發生更改時,您的模型也會随之變化。有時,這種變化是可取的,有時則反之。
在傳統的軟體開發中,您的注意力更多地放在代碼而非資料上。在機器學習開發中,雖然編碼仍是工作的一部分,但您必須同時關注資料。例如,在傳統的軟體開發項目中,編寫單元測試來驗證代碼是一種最佳做法。而在機器學習項目中,您還必須不斷地對輸入資料進行測試、驗證和監控。
例如,您應該持續監控您的模型以移除不用(或很少使用)的特征。假設某一特定特征對模型貢獻很少或沒有貢獻。如果該特征的輸入資料突然發生更改,則您模型的行為也可能會以意想不到的方式突然發生變化。
可靠性
以下是針對輸入資料的可靠性詢問的一些問題:
信号是否始終可用?信号來源是否不可靠?例如:
信号是否來自因負載過重而崩潰的伺服器?
信号是否來自每年 8 月去度假的人群?
版本控制
以下是針對版本控制詢問的一些問題:
計算此資料的系統是否發生過變化?如果是:
多久一次?
您如何知道系統發生變化的時間?
有時資料來自上遊程序。如果該程序突然發生變化,您的模型可能會受到影響。
請考慮為從上遊程序接收的資料建立您自己的副本。然後,隻有當您确定這樣做安全時,才跳轉到下一版上遊資料。
必要性
以下問題可以提醒您留意正則化:
特征的實用性是否能證明值得添加此特征?
人們往往傾向于向模型添加更多特征。例如,假設您找到一個新特征,添加該特征可讓您的模型略微準确一點。較高的準确率聽起來當然比較低的準确率更好。不過,現在您隻是增加了自己的維護負擔。添加的特征可能會意外降級,是以需要對它進行監控。在添加會帶來短期利好的特征之前,請謹慎考慮。
相關性
某些特征會與其他特征相關聯(正相關或負相關)。問問自己以下問題:
是否有任何特征密不可分,以至于需要采取額外政策來梳理它們?
回報環
有時,模型會影響其自身的訓練資料。例如,來自某些模型的結果反過來是同一模型的直接或間接輸入特征。
有時,一個模型會影響另一個模型。以下列兩個股價預測模型為例:
模型 A - 不理想的預測模型。
模型 B。
由于模型 A 有誤,是以會導緻錯誤地決定購買股票 X 的股票,而購買這些股票會擡高股票 X 的價格。模型 B 将股票 X 的股價用作輸入特征,是以它很容易對股票 X 的價值得出錯誤結論。然後,模型 B 會根據模型 A 的錯誤行為購買或銷售股票 X 的股份,反過來,模型 B 的行為會影響模型 A,而這樣很可能會觸發郁金香狂熱效應或導緻 X 公司的股價下滑。
檢查您的了解情況
機器學習現實世界應用示例
癌症預測
标簽洩漏
18世紀文學
資料集的拆分
現實世界應用準則
下面簡要說明了有效的機器學習準則:
1.確定第一個模型簡單易用。
2.着重確定資料管道的正确性。
3.使用簡單且可觀察的名額進行訓練和評估。
4.擁有并監控您的輸入特征。
5.将您的模型配置視為代碼:進行稽核并記錄在案。
6.記下所有實驗的結果,尤其是“失敗”的結果。
總結
後續步驟
課程是過了一遍,了解十分有限,姑且寫寫,未完待續。