Transfer learning for time series classification
https://arxiv.org/pdf/1811.01533.pdf
1. 作者的目标是什麼?或者已經實作了什麼?
- 目标:對于時間序列分類(Time Series Classification, TSC)問題,如何遷移深度CNN模型。
- 作者實作的内容:基于DTW(Dynamic Time Warping)方法選擇與給定目标資料集最相似的源資料集,改善TSC遷移學習的效果。
- 本文TSC遷移學習方法:(1)在非目标資料集上進行預訓練(pre-trained)(2)然後在目标資料集上進行微調(fine-tuned)
2. 新方法的關鍵是什麼?
- 對目标資料集 D t D_t Dt來說,和自身最相似的源資料集 D s D_s Ds才是最有遷移價值的資料集,作者采用的時間序列資料集最相似度量方法是DTW,在85個資料集的測試實驗中,實作了71個資料集的遷移結果性能的提高。
- 過程:對于給定的源資料集 D s D_s Ds和目标資料集 D t D_t Dt, 第一步,x先在 D s D_s Ds上訓練神經網絡。第二層,去除訓練好的神經網絡的最後一層(softmax層),換上新的softmax層,并使用Glorot’s uniform initialization方法随機初始化該層參數。然後,在目标資料集 D t D_t Dt上進行訓練。(第一步叫預訓練,第二步叫微調)
- 我對要選擇和 D t D_t Dt相似的 D s D_s Ds的了解,相似的資料集大機率會訓練出相似的網絡參數,這樣可以提高fin-tuned對網絡的分類性能改善能力。除了資料集相似這種方法之外,還有沒有别的方式去獲得這種相似參數呢?
3. 論文中哪些内容對我來說是有用的?
- [1] 作者使用的神經網絡 Fully Convolutional Neural Network(FCNN):
FCNN的最後一個卷積層采用的 global average pooling層(均值池化層)可以綜合CNN特征的全局資訊,這個對在特征中添加全局資訊很有啟發。
其中全局均值池化的過程是,對CNN的每個feature map 通過均值操作映射到一個标量,例如,對10個Feature map進行均值池化,則會得到一個 10 × 1 10\times 1 10×1的向量2。
下面對 global average pooling進行更深入的介紹,下面是對文獻[2]的摘錄:
既然全連接配接網絡可以使feature map的次元減少,進而輸入到softmax,但是又會造成過拟合,是不是可以用pooling來代替全連接配接。
答案是肯定的,Network in Network工作使用GAP來取代了最後的全連接配接層,直接實作了降維,更重要的是極大地減少了網絡的參數(CNN網絡中占比最大的參數其實後面的全連接配接層)。
由此就可以比較直覺地說明了。這兩者合二為一的過程我們可以探索到GAP的真正意義是:對整個網路在結構上做正則化防止過拟合。其直接剔除了全連接配接層中黑箱的特征,直接賦予了每個channel實際的意義。
實踐證明其效果還是比較可觀的,同時GAP可以實作任意圖像大小的輸入。但是值得我們注意的是,使用gap可能會造成收斂速度減慢2。
而文獻[1]也指出使用全局均值池化對TSC的模型遷移的好處:
最後,我們應該補充一點,使用全局平均池層的優點之一是,在不同長度的時間序列之間遷移模型時,不需要重新縮放輸入時間序列。
我的了解是GAP将每個CNN通道的映射為一個标量然後接入全連接配接層,這時候時間序列的長度尺寸資訊就被丢棄了,就像高斯分布中
總結一下GAP的優勢:
- 用GAP來取代全連接配接層的一部分,直接實作降維,而且極大地減少深度模型的參數。
- 給每個cnn的channel賦予不同的權重,實作了對cnn每個channel的區分。
- 綜上兩點達到了對網絡在結構上做正則化、防止過拟合的效果。
- 在時間序列上進行模型遷移時,不需要對輸入序列進行縮放。
GAP的短闆是:
- 可能會帶來收斂速度減慢。
4. 我還想要關注哪些參考文獻和資料?
- 關于全局均值池化:https://arxiv.org/abs/1312.4400
-
DBA:
[42] F. Petitjean and P. Ganc¸arski, “Summarizing a set of time series by averaging: From steiner sequence to compact multiple alignment,” Theoretical Computer Science, vol. 414, no. 1, pp. 76 – 91, 2012.
[43] F. Petitjean, G. Forestier, G. I. Webb, A. E. Nicholson, Y. Chen,and E. Keogh, “Dynamic Time Warping Averaging of Time Series Allows Faster and More Accurate Classification,” in IEEE International Conference on Data Mining, 2014, pp. 470–479.
- DBA http://francois-petitjean.com/Research/Petitjean2011-PR.pdf
5. 參考文獻
[1] https://arxiv.org/pdf/1811.01533.pdf [2] https://arxiv.org/abs/1312.4400 [3] https://zhuanlan.zhihu.com/p/46235425