天天看點

兩類時間序列的預測方法在原理和适用情況上的簡要對比

  • 對于兩大類常用的預測方法,一是單變量和多變量的時間序列分析方法,另一類是基于機器學習和深度學習的回歸方法,本文簡要地進行逐個介紹分析。
  1. 單變量時間序列分析方法,如ETS,ARIMA,STL等,更适用于目标值(target)有比較強的規律性的随時間生成的特征。一類特征如周、年季節性,固定或移動假日,這類特征本質上都是移動間距或固定間距的波動。另一類特征是某種形态的趨勢,如線性、sigmoid、指數、對數趨勢等。當與target相關的特征(或稱 features, preditors, indpendents, explanatory variables, etc.)不好擷取時,或者features對target的影響很小時,即target自身随時間表現出的特征的規律性,比target因features表現出的規律性明顯很多時,用單變量的時序方法成本效益最高;比各種一進制回歸方法還高,因為一進制回歸除了需要target外,還需要處理一維的feature,并且feature在訓練集和預測集都要能擷取。
  2. 多變量的時間序列分析方法,如Prophet,VARMAX,DynamicFactor等,相對于單變量的時序方法,除自身時變規律外,target還受會到不太多的幾個重要feature的影響,會使自身序列的特征在某些情況下産生不與時間相關、而與feature相關的變化。當處于這種情況,并且feature在訓練集和預測集上能有效擷取時,用多變量的時序方法大機率會比單變量的時序方法更準确;當然計算資源的消耗也會是以增加,可以根據實際情況來決定是否考慮成本效益。
  3. 回歸類的方法都是用feature去表達target,一般對處理多元的feature更有效,表達能力會更強;但對target序列自身随時間産生的那些特征的學習和表達,一般沒有時序模型強,這是因為時序模型會将target也當做一個自變量建構到目标函數中:y(t+n) = f(Y(<=t),X(<=t+n)),而回歸模型隻把feature當做自變量去建構函數:y(<=t+n) = f(X(<=t+n));其中 t 指第 t 期,n 指向未來預測 n 期。是以當target序列沒有或者少有随時間變化的那些特征,而其規律是展現在對應的那些features中時,用回歸類的模型就更合适。
  4. 因為深度學習是機器學習的一個子集,是以本文将神經網絡(主要指深度學習)也劃到回歸類模型中。從原理上看,根據神經元的構造不同及層與層之間的連接配接方式不同,有些RNN類的神經網絡會更接近時序模型,即target序列會經過變換後作為自變量用于構造目标函數;有些CNN類的會更接近回歸模型,即target序列隻當做因變量去構造目标函數。但因為神經網絡特别靈活,有些CNN類也将target序列一起用來構造自變量,如CNN-QR,并且支援feature在預測集上無法擷取的情況;隻是在預測期無法擷取的feature的次元越多,預測準确度就越受到能擷取的features的影響,以及不能擷取的features的在訓練集和預測期上特征變化程度大小的影響等。
  • 三個很好的預測方法參考資料:

    最全面最新鮮的:

    2022-IJF-Forecasting-theory and practice

    原理講解更多的:

    ①:Demand prediction in retail

    ②:Forecasting: Principles and Practice (3rd ed)

繼續閱讀