導言
英國數學家、計算機科學家、邏輯學家和密碼分析家阿蘭 · 圖靈曾說,
“這(機器學習)就像一個學生從老師那裡學到了很多,同時通過自己的工作又增加了很多。當這種情況發生時,我覺得人們有義務将機器視為顯示智能的工具。”
舉個機器學習影響的例子,曼氏集團的 AHL 次元計劃是一個51億美元的對沖基金,部分由人工智能管理。到2015年,該基金啟動後,其機器學習算法貢獻了該基金一半以上的利潤,盡管其管理的資産少得多。
機器學習算法入門
讀完這篇文章,你将能夠了解一些流行的和令人難以置信的機器學習算法背後的基本邏輯,這些算法已經被交易社群使用,并且作為你建立最好的機器學習算法的基石。他們是:
- Linear Regression 線性回歸
- Logistic regression 邏輯回歸
- KNN Classification K最近鄰(k-Nearest Neighbor)/KNN分類算法
- Support Vector Machine (SVM) 支援向量機(SVM)
- Decision Trees 決策樹
- Random Forest 随機森林
- Artificial Neural Network 人工神經網絡ANN
- K-means Clustering K均值聚類算法(K平均算法)
- Naive Bayes theorem 樸素貝葉斯定理
- Recurrent Neural Networks (RNN) 遞歸神經網絡(RNN)
線性回歸
統計學最初是用來研究輸入和輸出數字變量之間的關系,機器學習社群采用它來根據線性回歸方程進行預測。
線性回歸的數學表示是一個線性方程式,它結合了一組特定的輸入資料(x) ,以預測該組輸入值的輸出值(y)。線性方程為每組輸入值配置設定一個因子,稱為希臘字母 Beta (β)表示的系數。
下面提到的方程代表了一個有兩組輸入值的線性回歸模型,x1和 x2。Y 表示模型的輸出,β0,β1和 β2是線性方程的系數。
y = β0 + β1x1 + β2x2
當隻有一個輸入變量時,線性方程表示一條直線。為了簡單起見,考慮 β2等于零,這意味着變量 x2不會影響線性回歸模型的輸出。在這種情況下,線性回歸将代表一條直線,其方程如下所示。
y = β0 + β1x1
線性回歸方程模型的圖表如下所示:
線性回歸可以用來找出股票在一段時間内的總體價格趨勢。這有助于我們了解價格的變動是正向的還是負向的。
邏輯回歸
在邏輯回歸中,我們的目标是産生一個離散的值,要麼是1,要麼是0。這有助于我們找到一個明确的答案,我們的情況。
邏輯回歸在數學上可以表示為:
邏輯回歸模型計算輸入變量的權重和,類似于線性回歸,但是它通過一個特殊的非線性函數運作結果,logistic函數或sigmoid函數産生輸出 y。
sigmoid/logistic函數由下列方程表示:
y = 1 / (1+ e-x)
簡單來說,邏輯回歸模型可以用來預測市場的走向。
K最近鄰(k-Nearest Neighbor)/KNN分類算法
K 最近鄰(KNN)分類的目的是将資料點分成不同的類,以便根據相似性度量(如距離函數)對資料點進行分類。
從某種意義上說,KNN 是邊學邊做的,它不需要一個明确的訓練階段,而是開始對由鄰居大多數投票決定的資料點進行分類。
對象被配置設定到 k 個最近鄰中最常見的類。
讓我們考慮一下将一個綠色圓圈分為類1和類2的任務。考慮基于1-最近鄰居的 KNN 問題。在這種情況下,KNN 将綠色圓圈分類為類1。現在讓我們把最近的鄰居數增加到3,即3-最近的鄰居。正如你在圖中看到的,在圓圈内有兩個2類對象和一個1類對象。KNN 将綠色圓圈分類為2類對象,因為它形成大多數。
支援向量機(SVM)
支援向量機最初用于資料分析。首先,将一組訓練樣本輸入到支援向量機算法中,這些樣本屬于一個或另一個類别。然後,該算法建構一個模型,開始将新資料配置設定給它在訓練階段學到的一個類别。
在支援向量機算法中,建立了一個超平面,用于劃分類别。當支援向量機算法處理一個新的資料點,并根據它出現在哪一邊,它将被分類到一個類。
在與交易相關時,可以建立支援向量機算法,将股票資料分為有利的買入類、賣出類和中性類,然後根據規則對測試資料進行分類。
決策樹
決策樹基本上是一個類似于樹的支援工具,可以用來表示因果關系。由于一個原因可能具有多種效果,我們将它們列出來(就像有分支的樹一樣)。
我們可以通過組織輸入資料和預測變量,并根據我們将指定的一些标準來建構決策樹。
建構決策樹的主要步驟是:
- 檢索金融工具的市場資料
- 引入預測變量(即技術名額、情緒名額、廣度名額等)
- 設定 Target 變量或所需的輸出
- 在訓練資料和測試資料之間分割資料
- 生成決策樹訓練模型
- 測試和分析模型
決策樹的缺點是,由于其固有的設計結構,它們容易過度拟合。
随機森林
設計了一種随機森林算法來解決決策樹的一些局限性。
随機森林由決策樹組成,決策樹是表示決策過程或統計機率的決策圖。這些多個樹被映射到一個單一的樹,這是所謂的分類和回歸(CART)模型。
為了根據對象的屬性對其進行分類,每棵樹都給出了一個分類,即對該類進行“投票”。然後森林以最多的票數選擇分類。對于回歸,它考慮了不同樹的輸出的平均值。
随機森林的工作方式如下:
- 假設病例數為 N,從這 N 個病例中抽取一個樣本作為訓練集。
- 考慮 M 是輸入變量的個數,選擇一個數 m 使得 m < M。M 和 M 之間的最佳分割用于分割節點。當樹生長時,m 的值保持不變。
- 每棵樹都盡可能地長大。
- 通過聚合 n 棵樹的預測(例如,多數選擇分類,平均選擇回歸) ,預測新的資料。
人工神經網絡ANN
在我們扮演上帝視角的過程中,人工神經網絡是我們最偉大的成就之一。我們已經建立了多個互相連接配接的節點,如圖所示,它模仿了我們大腦中的神經元。簡單地說,每個神經元通過另一個神經元接收資訊,對其進行工作,并将其轉移到另一個神經元作為輸出。
每個圓形節點代表一個人工神經元,箭頭代表從一個神經元的輸出到另一個神經元的輸入的連接配接。
如果我們使用神經網絡來發現不同資産類别之間的互相依賴關系,而不是試圖預測買入或賣出的選擇,那麼神經網絡可能會更有用。
k均值聚類算法(K平均算法)
在這種機器學習算法中,目标是根據資料點的相似性進行标記。是以,我們沒有在算法之前定義這些聚類,而是在算法前進時找到這些聚類。
一個簡單的例子是,我們會根據足球運動員的資料,使用 K平均算法,并根據他們的相似性給他們貼上标簽。是以,這些叢集可以基于前鋒偏好得分的任意球或成功鏟球,即使算法沒有給予預先定義的标簽開始。
對于那些認為不同資産之間可能存在表面上看不到的相似之處的交易員來說,K平均算法是有利的。
樸素貝葉斯定理
現在,如果你們還記得基本機率,你們就會知道貝葉斯定理,是以這樣一種方式表述的,我們假設我們已經事先知道,任何與前一事件相關的事件。
例如,為了檢查你到辦公室遲到的可能性,人們想知道你在路上是否遇到交通堵塞。
然而,樸素貝葉斯分類器算法假設兩個事件是互相獨立的,是以,這在很大程度上簡化了計算。這最初隻是一個學術練習,樸素貝葉斯已經表明,它在現實世界中也能非常好的工作。
樸素貝葉斯算法可以在不需要完整資料的情況下找到不同參數之間的簡單關系。
遞歸神經網絡(RNN)
你知道 Siri,谷歌助理在他們的程式中使用 RNN 嗎?神經網絡本質上是一種神經網絡,它在每個節點上都有一個記憶體,這使得順序資料的處理變得容易,也就是說,一個資料單元依賴于前一個資料單元。
一種解釋 RNN 優于普通神經網絡的方法是,我們應該逐個字元地處理單詞。如果單詞是“交易”,一個正常的神經網絡節點會在移動到“ d”時忘記字元“ t”,而遞歸神經網絡會記住這個字元,因為它有自己的記憶。
結論
Preqin(一家位于倫敦的私人投資資料公司)的一項研究顯示,已知有1360隻定量基金在交易過程中使用計算機模型,占所有基金的9% 。如果一個人的機器學習政策在測試階段能夠賺錢,公司就會為其組織現金獎勵,事實上,公司會投資自己的錢,并在實時交易階段獲得獎勵。是以,為了在競争中領先一步,每個人,無論是數十億美元的對沖基金還是個人交易,都在努力了解并在交易政策中實施機器學習。
往期推薦
十種機器學習算法的預測分析