天天看點

自創資料集,用TensorFlow預測股票教程 !(附代碼)

STATWORX 團隊近日從 Google Finance API 中精選出了 S&P 500 資料,該資料集包含 S&P 500 的指數和股價資訊。有了這些資料,他們就希望能利用深度學習模型和 500 支成分股價預測 S&P 500 指數。STATWORX 團隊的資料集十分新穎,但隻是利用四個隐藏層的全連接配接網絡實作預測,讀者也可以下載下傳該資料嘗試更加優秀的循環神經網絡

本文非常适合初學者了解如何使用 TensorFlow 建構基本的神經網絡,它全面展示了建構一個 TensorFlow 模型所涉及的概念與子產品。本文所使用的資料集可以直接下載下傳,是以有一定基礎的讀者也可以嘗試使用更強的循環神經網絡處理這一類時序資料。

資料集位址:http://files.statworx.com/sp500.zip

導入和預處理資料

STATWORX 團隊從伺服器爬取股票資料,并将它們儲存為 csv 格式的檔案。該資料集包含 n=41266 分鐘的記錄,範圍從 2017 年的 4 月到 8 月的 500 支股票和 S&P 500 指數,股票和股指的範圍分布十分廣。

該資料集已經經過了清理與預處理,即損失的股票和股指都通過 LOCF'ed 處理(下一個觀測資料複制前面的),是以該資料集沒有任何缺損值。

我們可以使用 pyplot.plot('SP500') 語句繪出 S&P 時序資料。

S&P 500 股指時序繪圖

預備訓練和測試資料

該資料集需要被分割為訓練和測試資料,訓練資料包含總資料集 80% 的記錄。該資料集并不需要擾亂而隻需要序列地進行切片。訓練資料可以從 2017 年 4 月選取到 2017 年 7 月底,而測試資料再選取剩下到 2017 年 8 月的資料。

時序交叉驗證有很多不同的方式,例如有或沒有再拟合(refitting)而執行滾動式預測、或者如時序 bootstrap 重采樣等更加詳細的政策等。後者涉及時間序列周期性分解的重複樣本,以便模拟與原時間序列相同周期性模式的樣本,但這并不不是簡單的複制他們的值。

資料标準化

大多數神經網絡架構都需要标準化資料,因為 tanh 和 sigmoid 等大多數神經元的激活函數都定義在 [-1, 1] 或 [0, 1] 區間内。目前線性修正單元 ReLU 激活函數是最常用的,但它的值域有下界無上界。不過無論如何我們都應該重新縮放輸入和目标值的範圍,這對于我們使用梯度下降算法也很有幫助。縮放取值可以使用 sklearn 的 MinMaxScaler 輕松地實作。

注意,我們必須謹慎地确定什麼時候該縮放哪一部分資料。比較常見的錯誤就是在拆分測試和訓練資料集之前縮放整個資料集。因為我們在執行縮放時會涉及到計算統計資料,例如一個變量的最大和最小值。但在現實世界中我們并沒有來自未來的觀測資訊,是以必須對訓練資料按比例進行統計計算,并将統計結果應用于測試資料中。不然的話我們就使用了未來的時序預測資訊,這常常令預測度量偏向于正向。

TensorFlow 簡介

TensorFlow 是一個十分優秀的架構,目前是深度學習和神經網絡方面使用者最多的架構。它基于 C++的底層後端,但通常通過 Python 進行控制。TensorFlow 利用強大的靜态圖表征我們需要設計的算法與運算。這種方法允許使用者指定運算為圖中的結點,并以張量的形式傳輸資料而實作高效的算法設計。由于神經網絡實際上是資料和數學運算的計算圖,是以 TensorFlow 能很好地支援神經網絡和深度學習。

總的來說,TensorFlow 是一種采用資料流圖(data flow graphs),用于數值計算的開源軟體庫。其中 Tensor 代表傳遞的資料為張量(多元數組),Flow 代表使用計算圖進行運算。資料流圖用「結點」(nodes)和「邊」(edges)組成的有向圖來描述數學運算。「結點」一般用來表示施加的數學操作,但也可以表示資料輸入的起點和輸出的終點,或者是讀取/寫入持久變量(persistent variable)的終點。邊表示結點之間的輸入/輸出關系。這些資料邊可以傳送次元可動态調整的多元資料數組,即張量(tensor)。

自創資料集,用TensorFlow預測股票教程 !(附代碼)

執行加法的簡單計算圖

在上圖中,兩個零維張量(标量)将執行相加任務,這兩個張量儲存在兩個變量 a 和 b 中。這兩個值流過圖形在到達正方形結點時被執行相加任務,相加的結果被儲存在變量 c 中。實際上,a、b 和 c 可以被看作占位符,任何輸入到 a 和 b 的值都将會相加到 c。這正是 TensorFlow 的基本原理,使用者可以通過占位符和變量定義模型的抽象表示,然後再用實際的資料填充占位符以産生實際的運算,下面的代碼實作了上圖簡單的計算圖:

如上在導入 TensorFlow 庫後,使用 tf.placeholder() 定義兩個占位符來預儲存張量 a 和 b。随後定義運算後就能執行運算圖得出結果。

占位符

正如前面所提到的,神經網絡的初始源自占位符。是以現在我們先要定義兩個占位符以拟合模型,X 包含神經網絡的輸入(所有 S&P 500 在時間 T=t 的股票價格),Y 包含神經網絡的輸出(S&P 500 在時間 T=t+1 的指數值)。

是以輸入資料占位符的次元可定義為 [None, n_stocks],輸出占位符的次元為 [None],它們分别代表二維張量和一維張量。了解輸入和輸出張量的次元對于建構整個神經網絡十分重要。

以上代碼中的 None 指代我們暫時不知道每個批量傳遞到神經網絡的數量,是以使用 None 可以保持靈活性。我們後面會定義控制每次訓練時使用的批量大小 batch_size。

變量

除了占位符,變量是 TensorFlow 表征資料和運算的另一個重要元素。雖然占位符在計算圖内通常用于儲存輸入和輸出資料,但變量在計算圖内部是非常靈活的容器,它可以在執行中進行修改與傳遞。神經網絡的權重和偏置項一般都使用變量定義,以便在訓練中可以友善地進行調整,變量需要進行初始化,後文将詳細解釋這一點。

該模型由四個隐藏層組成,第一層包含 1024 個神經元,然後後面三層依次以 2 的倍數減少,即 512、256 和 128 個神經元。後面的層級的神經元依次減少就壓縮了前面層級中抽取的特征。當然,我們還能使用其它神經網絡架構和神經元配置以更好地處理資料,例如卷積神經網絡架構适合處理圖像資料、循環神經網絡适合處理時序資料,但本文隻是為入門者簡要地介紹如何使用全連接配接網絡處理時序資料,是以那些複雜的架構本文并不會讨論。

了解輸入層、隐藏層和輸出層之間變量的次元變換對于了解整個網絡是十分重要的。作為多層感覺機的一個經驗性法則,後面層級的第一個次元對應于前面層級權重變量的第二個次元。這可能聽起來比較複雜,但實際上隻是将每一層的輸出作為輸入傳遞給下一層。偏置項的次元等于目前層級權重的第二個次元,也等于該層中的神經元數量。

設計神經網絡的架構

在定義完神經網絡所需要的權重矩陣與偏置項向量後,我們需要指定神經網絡的拓撲結構或網絡架構。是以占位符(資料)和變量(權重和偏置項)需要組合成一個連續的矩陣乘法系統。

此外,網絡隐藏層中的每一個神經元還需要有激活函數進行非線性轉換。激活函數是網絡體系結構非常重要的組成部分,因為它們将非線性引入了系統。目前有非常多的激活函數,其中最常見的就是線性修正單元 ReLU 激活函數,本模型也将使用該激活函數。

下圖将展示本文建構的神經網絡架構,該模型主要由三個建構塊組成,即輸入層、隐藏層和輸出層。這種架構被稱為前饋網絡或全連接配接網絡,前饋表示輸入的批量資料隻會從左向右流動,其它如循環神經網絡等架構也允許資料向後流動。

自創資料集,用TensorFlow預測股票教程 !(附代碼)

前饋網絡的核心架構

損失函數

該網絡的損失函數主要是用于生成網絡預測與實際觀察到的訓練目标之間的偏內插補點。對回歸問題而言,均方誤差(MSE)函數最為常用。MSE 計算預測值與目标值之間的平均平方誤差。

然而,MSE 的特性在常見的優化問題上很有優勢。

優化器

優化器處理的是訓練過程中用于适應網絡權重和偏差變量的必要計算。這些計算調用梯度計算結果,訓示訓練過程中,權重和偏差需要改變的方向,進而最小化網絡的代價函數。穩定、快速的優化器的開發,一直是神經網絡和深度學習領域的重要研究。

以上是用到了 Adam 優化器,是目前深度學習中的預設優化器。Adam 表示适應性矩估計,可被當作 AdaGrad 和 RMSProp 這兩個優化器的結合。

初始化器

初始化器被用于在訓練之前初始化網絡的變量。因為神經網絡是使用數值優化技術訓練的,優化問題的起點是找到好的解決方案的重點。TensorFlow 中有不同的初始化器,每個都有不同的初始化方法。在這篇文章中,我使用的是 tf.variance_scaling_initializer(),是一種預設的初始化政策。

注意,用 TensorFlow 的計算圖可以對不同的變量定義多個初始化函數。然而,在大多數情況下,一個統一的初始化函數就夠了。

拟合神經網絡

完成對網絡的占位符、變量、初始化器、代價函數和優化器的定義之後,就可以開始訓練模型了,通常會使用小批量訓練方法。在小批量訓練過程中,會從訓練資料随機提取數量為 n=batch_size 的資料樣本饋送到網絡中。訓練資料集将分成 n/batch_size 個批量按順序饋送到網絡中。此時占位符 X 和 Y 開始起作用,它們儲存輸入資料和目标資料,并在網絡中分别表示成輸入和目标。

X 的一個批量資料會在網絡中向前流動直到到達輸出層。在輸出層,TensorFlow 将會比較目前批量的模型預測和實際觀察目标 Y。然後,TensorFlow 會進行優化,使用選擇的學習方案更新網絡的參數。更新完權重和偏差之後,下一個批量被采樣并重複以上過程。這個過程将一直進行,直到所有的批量都被饋送到網絡中去,即完成了一個 epoch。

當訓練達到了 epoch 的最大值或其它的使用者自定義的停止标準的時候,網絡的訓練就會停止。

在訓練過程中,我們在測試集(沒有被網絡學習過的資料)上評估了網絡的預測能力,每訓練 5 個 batch 進行一次,并展示結果。此外,這些圖像将被導出到磁盤并組合成一個訓練過程的視訊動畫。模型能迅速學習到測試資料中的時間序列的位置和形狀,并在經過幾個 epoch 的訓練之後生成準确的預測。太棒了!

可以看到,網絡迅速地适應了時間序列的基本形狀,并能繼續學習資料的更精細的模式。這歸功于 Adam 學習方案,它能在模型訓練過程中降低學習率,以避免錯過最小值。經過 10 個 epoch 之後,我們完美地拟合了測試資料!最後的測試 MSE 等于 0.00078,這非常低,因為目标被縮放過。測試集的預測的平均百分誤差率等于 5.31%,這是很不錯的結果。

自創資料集,用TensorFlow預測股票教程 !(附代碼)

預測和實際 S&P 價格的散點圖(已縮放)

請注意其實還有很多種方法能進一步優化這個結果:層和神經元的設計、不同的初始化和激活方案的選擇、引入神經元的 dropout 層、早期停止法的應用,等等。此外,其它不同類型的深度學習模型,比如循環神經網絡也許能在這個任務中達到更好的結果。不過,這在我們的讨論範圍之外。

結論和展望

TensorFlow 的釋出是深度學習研究的裡程碑事件,其高度的靈活性和強大的性能使研究者能開發所有種類的複雜神經網絡架構以及其它機器學習算法。然而,相比使用進階 API 如 Keras 或 MxNet,靈活性的代價是更長的模組化時間。盡管如此,我相信 TensorFlow 将繼續發展,并成為神經網路和和深度學習開發的研究和實際應用的現實标準。我們很多客戶都已經在使用 TensorFlow,或正在開發應用 TensorFlow 模型的項目。我們的 STATWORX 的資料科學顧問(https://www.statworx.com/de/data-science/)基本都是用 TensorFlow 研究課開發深度學習以及神經網絡。

谷歌未來針對 TensorFlow 的計劃會是什麼呢?至少在我看來,TensorFlow 缺少一個簡潔的圖形使用者界面,用于在 TensorFlow 後端設計和開發神經網絡架構。也許這就是谷歌未來的一個目标:)

原文釋出時間為:2017-11-15

繼續閱讀