《建構實時機器學習系統》一3.4　資料分析的三個要點

2021-11-10 14:05:36

本書後面的章節中将會以前面發現的均值回歸的性質為依托，設計實時機器學習交易政策進行交易。好多讀者看到這裡可能已經躍躍欲試，等不及要開始搭建伺服器開始賺他一個億了。但是在這之前我們需要總結一下在開展機器學習工作前期關于資料分析的幾個原則。

驗證假設是否正确是機器學習前期資料分析最重要的目的。這裡的假設包括但不限于：資料的格式、變量的數量、資料是否缺失、是否有極端值、采樣是否均衡等。上面這些假設，如果稍有差錯，就會讓在後面得到的機器學習模型無用武之地。

與此同時，我們通過資料清理得到的結果也需要經過假設驗證以保證資料的完整性。最後，在實時應用中，我們往往需要考慮如下這些情況。

極端值：線下模組化往往都會在第一步就過濾掉極端值，但是在實時環境中，極端值是客觀存在的。

缺失值：再優秀的系統也有當機出錯的時候，這個時候缺失值的出現就要求系統具有靈活的錯誤處理能力。

延遲：本章練習資料的時間戳是交易所時間，還是到達用戶端伺服器的時間？任何網絡延遲都可能讓我們的模型不再有效。多問這樣的問題在進行快速機器學習應用的時候顯得尤為重要。

為了連續驗證假設，我們必須自動化資料的監控和可視化。一個完備的實時機器學習系統至少需要以下兩個部件。

實時關鍵資料可視化：通過實時面闆對關鍵資料進行可視化，讓操作人員能夠一目了然地判斷系統和資料的健康情況。

實時診斷監控：通過規則設定，對異常情況進行實時判斷和報警。

本書的系統架構章節（第９章）将介紹如何利用 ELK（Elasticsearch、Logstash、Kibana）叢集實作實時資料監控。

繼續閱讀