天天看點

時間序列遷移學習論文閱讀筆記Transfer learning for time series classification

Transfer learning for time series classification

https://arxiv.org/pdf/1811.01533.pdf

1. 作者的目标是什麼?或者已經實作了什麼?

  • 目标:對于時間序列分類(Time Series Classification, TSC)問題,如何遷移深度CNN模型。
  • 作者實作的内容:基于DTW(Dynamic Time Warping)方法選擇與給定目标資料集最相似的源資料集,改善TSC遷移學習的效果。
  • 本文TSC遷移學習方法:(1)在非目标資料集上進行預訓練(pre-trained)(2)然後在目标資料集上進行微調(fine-tuned)

2. 新方法的關鍵是什麼?

  • 對目标資料集 D t D_t Dt​來說,和自身最相似的源資料集 D s D_s Ds​才是最有遷移價值的資料集,作者采用的時間序列資料集最相似度量方法是DTW,在85個資料集的測試實驗中,實作了71個資料集的遷移結果性能的提高。
  • 過程:對于給定的源資料集 D s D_s Ds​和目标資料集 D t D_t Dt​, 第一步,x先在 D s D_s Ds​上訓練神經網絡。第二層,去除訓練好的神經網絡的最後一層(softmax層),換上新的softmax層,并使用Glorot’s uniform initialization方法随機初始化該層參數。然後,在目标資料集 D t D_t Dt​上進行訓練。(第一步叫預訓練,第二步叫微調)
  • 我對要選擇和 D t D_t Dt​相似的 D s D_s Ds​的了解,相似的資料集大機率會訓練出相似的網絡參數,這樣可以提高fin-tuned對網絡的分類性能改善能力。除了資料集相似這種方法之外,還有沒有别的方式去獲得這種相似參數呢?

3. 論文中哪些内容對我來說是有用的?

  • [1] 作者使用的神經網絡 Fully Convolutional Neural Network(FCNN):
時間序列遷移學習論文閱讀筆記Transfer learning for time series classification

FCNN的最後一個卷積層采用的 global average pooling層(均值池化層)可以綜合CNN特征的全局資訊,這個對在特征中添加全局資訊很有啟發。

其中全局均值池化的過程是,對CNN的每個feature map 通過均值操作映射到一個标量,例如,對10個Feature map進行均值池化,則會得到一個 10 × 1 10\times 1 10×1的向量2。

時間序列遷移學習論文閱讀筆記Transfer learning for time series classification

下面對 global average pooling進行更深入的介紹,下面是對文獻[2]的摘錄:

既然全連接配接網絡可以使feature map的次元減少,進而輸入到softmax,但是又會造成過拟合,是不是可以用pooling來代替全連接配接。

答案是肯定的,Network in Network工作使用GAP來取代了最後的全連接配接層,直接實作了降維,更重要的是極大地減少了網絡的參數(CNN網絡中占比最大的參數其實後面的全連接配接層)。

由此就可以比較直覺地說明了。這兩者合二為一的過程我們可以探索到GAP的真正意義是:對整個網路在結構上做正則化防止過拟合。其直接剔除了全連接配接層中黑箱的特征,直接賦予了每個channel實際的意義。

實踐證明其效果還是比較可觀的,同時GAP可以實作任意圖像大小的輸入。但是值得我們注意的是,使用gap可能會造成收斂速度減慢2。

而文獻[1]也指出使用全局均值池化對TSC的模型遷移的好處:

最後,我們應該補充一點,使用全局平均池層的優點之一是,在不同長度的時間序列之間遷移模型時,不需要重新縮放輸入時間序列。

我的了解是GAP将每個CNN通道的映射為一個标量然後接入全連接配接層,這時候時間序列的長度尺寸資訊就被丢棄了,就像高斯分布中

總結一下GAP的優勢:

  • 用GAP來取代全連接配接層的一部分,直接實作降維,而且極大地減少深度模型的參數。
  • 給每個cnn的channel賦予不同的權重,實作了對cnn每個channel的區分。
  • 綜上兩點達到了對網絡在結構上做正則化、防止過拟合的效果。
  • 在時間序列上進行模型遷移時,不需要對輸入序列進行縮放。

GAP的短闆是:

  • 可能會帶來收斂速度減慢。

4. 我還想要關注哪些參考文獻和資料?

  • 關于全局均值池化:https://arxiv.org/abs/1312.4400
  • DBA:

    [42] F. Petitjean and P. Ganc¸arski, “Summarizing a set of time series by averaging: From steiner sequence to compact multiple alignment,” Theoretical Computer Science, vol. 414, no. 1, pp. 76 – 91, 2012.

    [43] F. Petitjean, G. Forestier, G. I. Webb, A. E. Nicholson, Y. Chen,and E. Keogh, “Dynamic Time Warping Averaging of Time Series Allows Faster and More Accurate Classification,” in IEEE International Conference on Data Mining, 2014, pp. 470–479.

  • DBA http://francois-petitjean.com/Research/Petitjean2011-PR.pdf

5. 參考文獻

[1] https://arxiv.org/pdf/1811.01533.pdf [2] https://arxiv.org/abs/1312.4400 [3] https://zhuanlan.zhihu.com/p/46235425

繼續閱讀