摩根大通机器学习与金融大数据指南——未来的华尔街大亨|大数据+机器学习+金融工程师

由于280页的报告太长而无法详细介绍，现总结一些突出的观点。

1. 银行将需要聘请优秀的数据科学家，同时这些科学家也了解市场运作

摩根警告银行和金融公司优先考虑基于市场知识的数据分析技能的方式，这样做是相当危险的，而了解数据和信号背后的经济学比开发复杂的技术解决方案更为重要。

2. 机器在短期和中期内最有能力做出交易决定

摩根指出，人类已经被排除在高频交易之外了。未来，机器在中期交易中也将越来越普遍：“机器有能力快速分析新闻消息和推文、处理收益报表、挖掘网站和瞬时交易”，这将有助于削弱多基础分析师、长短期股票管理者和宏观投资者的需求。

3. 人类适合在长期做出交易决定（作者未编辑3）

从长期来看，人类保留的一个优势就是对制度的把握及人类反应的预测比机器做得更好，这些预测涉及解读诸如政治家和央行行长等人复杂的人类反应、了解客户定位或预期拥挤等。如果你想作为一个人类投资者并生存下去，那就需要打造出自身的优势，

4. 需要一支大军来获取、筛选并评估数据

在实施机器学习策略之前，数据科学家和定量研究人员需要获取数据并对其分析以获得可交易信号和深刻见解。

数据分析很复杂，今天的数据集通常比昨天的数据集更大，这些数据集可能包括个人（社交媒体帖子、产品评论、搜索趋势等）、业务流程（公司废气数据、商业交易、信用卡数据等）和传感器（卫星图像数据、交通、轮船定位等）生成的数据。大数据很少呈现出干净的内容，无法直接提供给机器学习算法使用，因此需要专门的团队预处理数据后才能在交易策略中使用。另外还需要评估“alpha内容（可以简单理解为超额回报）”。alpha内容将部分依赖于数据的成本、所需的处理量以及数据集的使用情况。

5. 不同类型的机器学习针对不同的用途

机器学习有多种迭代算法，包括监督学习、无监督学习以及深度和增强学习。

监督学习的目的是建立两个数据集之间的关系，即使用一个数据集去预测另一个数据集；无监督学习的目的是尝试了解数据的结构并确定其背后的主要驱动力；深度学习的目的是使用多层神经网络来分析一个趋势，而增强学习则鼓励算法来探索和找到最有利可图的交易策略。简单来说，监督学习就是预先受到好的训练，比如买房政策——房价会涨，那么买买买就行；而无监督学习就是没有标准供你参考，你不知道房价会不会崩盘，需要去尝试，第一次买，房价跌了会有财产损失，第二次买，买对了，房价涨了，然后你就知道什么时候买、买什么样的房子会涨；深度学习就是综合目前的数据判断一个趋势，房价之后会涨还是跌，之后再做出选择；而增强学习就是尝试找到一个最合适的买房方式（以上纯属杜撰，买房有风险，入市需谨慎）。

6. 样本数据使用监督学习进行趋势预测

在财务背景下，摩根表示，监督学习算法根据提供的历史数据找出最佳预测关系。一般来讲，有监督学习算法有两类：回归和分类。

基于回归的监督学习方法尝试基于输入变量来预测输出。

分类方法逆向操作，并尝试确定一组分类属于哪个类别。

7. 无监督学习用于确定大量变量之间的关系

在无监督学习中，机器从大量变量中获得回归，并且不知道哪些是依赖和独立变量。概括来讲，无监督学习方法被归为聚类或因子分析。

聚类是基于一些相似性概念将数据集分成较小的组。

因子分析旨在识别数据的主要驱动因素或确定数据的最佳表示。在资产投资组合中，因子分析将确定动力、价值等主要驱动因素。

8. 深度学习系统将承担让人难以定义但易于执行的任务

深度学习实际上是人为重建人类智慧的一种尝试。摩根表示，深度学习特别适用于非结构化大数据集的预处理（例如，可用于统计卫星图像中的汽车数、或在新闻稿中识别情绪）。深度学习模型可以使用假设的财务数据系列来估计市场调整的可能性。

深度学习方法基于神经网络，这些神经网络类似于人类大脑的神经网络。在网络中，每个神经元接收来自其他神经元的输入，并且“计算”这些输入的加权平均值，不同输入的相对权重取决于以往的经验，一层连接一层，网络层数越高，学习到的特征越抽象。

9. 增强学习将用于选择连续的行动以最大化最终的奖励

增强学习的目标是选择一系列连续的行动以最大化最终（或累积）奖励，这与监督学习（通常一步过程）不同，增强学习模型并不清楚每个步骤的正确操作。

摩根的电子交易部门已经采用增强学习开发了一些算法，下图显示了银行机器学习模型（怀疑是故意模糊）。

10. 不需要成为机器学习专家，而需要成为一个优秀的金融工程师和出色的程序员

摩根表示，数据科学家所要求掌握的技能与定量研究员几乎相同。因此，有着计算机科学、统计学、数学、金融工程、计量经济学和自然科学背景的买方和卖方都能重新塑造自我。量化交易策略将是关键技能，这是由于量化研究者相比于it专家而言更容易改变数据集的格式/大小，并能采用更好的统计和机器学习工具。

11. 你所需要知道的编程语言和数据分析包

如果只是计划学习与机器学习相关的一种编码语言，建议选择r语言以及对应的数据包，c ++、python和java也有对应的机器学习应用程序。

12. 流行的机器学习代码例子（python语言）

13. 支撑函数也需要了解大数据

作者信息

文章原标题《j.p.morgan’s massive guide to machine learning and big data jobs in finance》，作者：sarah butcher，译者：海棠，审阅：东东邪

附件为原文的pdf

摩根大通机器学习与金融大数据指南——未来的华尔街大亨|大数据+机器学习+金融工程师

继续阅读

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

[HTML5]自定义属性 data-* 和 jQuery.data 详解

9.spark Core 进阶2--Cashe

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

C++ 第十五周报告1--《冒泡法排序》

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

浅谈企业活动中进行数据分析的重要性

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

无人机--飞控科普

Dijkstra--简易版（最短路径）

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark

hdu7108哈希