摩根大通機器學習與金融大資料指南——未來的華爾街大亨|大資料+機器學習+金融工程師

由于280頁的報告太長而無法詳細介紹，現總結一些突出的觀點。

1. 銀行将需要聘請優秀的資料科學家，同時這些科學家也了解市場運作

摩根警告銀行和金融公司優先考慮基于市場知識的資料分析技能的方式，這樣做是相當危險的，而了解資料和信号背後的經濟學比開發複雜的技術解決方案更為重要。

2. 機器在短期和中期内最有能力做出交易決定

摩根指出，人類已經被排除在高頻交易之外了。未來，機器在中期交易中也将越來越普遍：“機器有能力快速分析新聞消息和推文、處理收益報表、挖掘網站和瞬時交易”，這将有助于削弱多基礎分析師、長短期股票管理者和宏觀投資者的需求。

3. 人類适合在長期做出交易決定（作者未編輯3）

從長期來看，人類保留的一個優勢就是對制度的把握及人類反應的預測比機器做得更好，這些預測涉及解讀諸如政治家和央行行長等人複雜的人類反應、了解客戶定位或預期擁擠等。如果你想作為一個人類投資者并生存下去，那就需要打造出自身的優勢，

4. 需要一支大軍來擷取、篩選并評估資料

在實施機器學習政策之前，資料科學家和定量研究人員需要擷取資料并對其分析以獲得可交易信号和深刻見解。

資料分析很複雜，今天的資料集通常比昨天的資料集更大，這些資料集可能包括個人（社交媒體文章、産品評論、搜尋趨勢等）、業務流程（公司廢氣資料、商業交易、信用卡資料等）和傳感器（衛星圖像資料、交通、輪船定位等）生成的資料。大資料很少呈現出幹淨的内容，無法直接提供給機器學習算法使用，是以需要專門的團隊預處理資料後才能在交易政策中使用。另外還需要評估“alpha内容（可以簡單了解為超額回報）”。alpha内容将部分依賴于資料的成本、所需的處理量以及資料集的使用情況。

5. 不同類型的機器學習針對不同的用途

機器學習有多種疊代算法，包括監督學習、無監督學習以及深度和增強學習。

監督學習的目的是建立兩個資料集之間的關系，即使用一個資料集去預測另一個資料集；無監督學習的目的是嘗試了解資料的結構并确定其背後的主要驅動力；深度學習的目的是使用多層神經網絡來分析一個趨勢，而增強學習則鼓勵算法來探索和找到最有利可圖的交易政策。簡單來說，監督學習就是預先受到好的訓練，比如買房政策——房價會漲，那麼買買買就行；而無監督學習就是沒有标準供你參考，你不知道房價會不會崩盤，需要去嘗試，第一次買，房價跌了會有财産損失，第二次買，買對了，房價漲了，然後你就知道什麼時候買、買什麼樣的房子會漲；深度學習就是綜合目前的資料判斷一個趨勢，房價之後會漲還是跌，之後再做出選擇；而增強學習就是嘗試找到一個最合适的買房方式（以上純屬杜撰，買房有風險，入市需謹慎）。

6. 樣本資料使用監督學習進行趨勢預測

在财務背景下，摩根表示，監督學習算法根據提供的曆史資料找出最佳預測關系。一般來講，有監督學習算法有兩類：回歸和分類。

基于回歸的監督學習方法嘗試基于輸入變量來預測輸出。

分類方法逆向操作，并嘗試确定一組分類屬于哪個類别。

7. 無監督學習用于确定大量變量之間的關系

在無監督學習中，機器從大量變量中獲得回歸，并且不知道哪些是依賴和獨立變量。概括來講，無監督學習方法被歸為聚類或因子分析。

聚類是基于一些相似性概念将資料集分成較小的組。

因子分析旨在識别資料的主要驅動因素或确定資料的最佳表示。在資産投資組合中，因子分析将确定動力、價值等主要驅動因素。

8. 深度學習系統将承擔讓人難以定義但易于執行的任務

深度學習實際上是人為重建人類智慧的一種嘗試。摩根表示，深度學習特别适用于非結構化大資料集的預處理（例如，可用于統計衛星圖像中的汽車數、或在新聞稿中識别情緒）。深度學習模型可以使用假設的财務資料系列來估計市場調整的可能性。

深度學習方法基于神經網絡，這些神經網絡類似于人類大腦的神經網絡。在網絡中，每個神經元接收來自其他神經元的輸入，并且“計算”這些輸入的權重平均值，不同輸入的相對權重取決于以往的經驗，一層連接配接一層，網絡層數越高，學習到的特征越抽象。

9. 增強學習将用于選擇連續的行動以最大化最終的獎勵

增強學習的目标是選擇一系列連續的行動以最大化最終（或累積）獎勵，這與監督學習（通常一步過程）不同，增強學習模型并不清楚每個步驟的正确操作。

摩根的電子交易部門已經采用增強學習開發了一些算法，下圖顯示了銀行機器學習模型（懷疑是故意模糊）。

10. 不需要成為機器學習專家，而需要成為一個優秀的金融工程師和出色的程式員

摩根表示，資料科學家所要求掌握的技能與定量研究員幾乎相同。是以，有着計算機科學、統計學、數學、金融工程、計量經濟學和自然科學背景的買方和賣方都能重新塑造自我。量化交易政策将是關鍵技能，這是由于量化研究者相比于it專家而言更容易改變資料集的格式/大小，并能采用更好的統計和機器學習工具。

11. 你所需要知道的程式設計語言和資料分析包

如果隻是計劃學習與機器學習相關的一種編碼語言，建議選擇r語言以及對應的資料包，c ++、python和java也有對應的機器學習應用程式。

12. 流行的機器學習代碼例子（python語言）

13. 支撐函數也需要了解大資料

作者資訊

文章原标題《j.p.morgan’s massive guide to machine learning and big data jobs in finance》，作者：sarah butcher，譯者：海棠，審閱：東東邪

附件為原文的pdf

摩根大通機器學習與金融大資料指南——未來的華爾街大亨|大資料+機器學習+金融工程師

繼續閱讀

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希