天天看点

数据科学家之我见

"一代人终将老去"

今年中秋节在十一,全国人民欢度团圆的佳节时,也在庆祝祖国的生日。在回顾新中国各项成就的文章中,不少都提到了“两弹一星”。还有不少在回顾,为完成这项成就做出杰出贡献的科学家,特别是国庆五十年之际党和国家隆重表彰的23位“两弹一星”元勋,为了国家的急迫需要,从五湖四海来干惊天动地事的事迹。

数据科学家之我见

两弹一星元勋

时光匆匆,白驹过隙。节日期间亲朋聚会,席间说到周光召先生已经年过九旬,住进北京医院转眼也10年了。周光召先生是23位“两弹一星”元勋中最年轻的一位,1961年从苏联被召回国参加核武器理论研究时才32岁。

数据科学家之我见

"但总有人正年轻"

“当今世界正经历百年未有之大变局”。过去十年伴随着以大数据和机器学习为代表的技术革新和应用,极大的改变了学术研究和工业应用的面貌。从而引起了从国家战略到资本市场的极大关注,进而吸引了现在年轻人的目光。

伴随着数据的海量增长,数据虽然有广泛性多样性的特点,但数据研究具有共性,数据应用技术的发展具有迫切性,出现了以信息科学技术、统计学、机器学习等学科为基础的数据科学。非常赞同鄂维南院士关于数据科学的表述:“数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。前者包括生物信息学、天体信息学、数字地球等领域;后者包括统计学、机器学习、数据挖掘、数据库等领域。这些学科都是数据科学的重要组成部分, 但只有把它们有机地整合在一起,才能形成整个数据科学的全貌。”

鄂院士2019年获得Peter Henrici奖时在国际工业与应用数学大会上所做的报告中进一步指出:机器学习提供了解决“高维数据的处理能力相当有限”这一科学基础障碍的新工具。将机器学习引入到科学建模将会给我们提供意想不到的能力,甚至很可能会改变人们做科学和工程的方式。将机器学习(代表开普勒范式)与基于第一性原理的物理建模(代表牛顿范式)相结合,为科学研究开辟了一个新的强大范式。现在正处在一场新的科学革命的边缘,这场革命不仅将对科学产生影响,而且将从根本上影响数学和应用数学。

数据科学家之我见

在工业界和应用领域,以大数据(Big Data)、人工智能(AI)、云计算(Cloud Computing)、区块链(Block Chain)等技术为依托,很多行业的面貌都发生了翻天覆地的变化。国际上的谷歌、脸书、亚马逊,国内的BATJ等PC互联网起家,以及近年崛起的字节跳动等移动互联网新贵,无一不在这些数据领域投入巨大,以求创新。

以金融领域为例,这些ABCD直接催生了金融科技(FinTech)的诞生。国内以蚂蚁金服、京东数科为代表的互联网金融创新都以为金融科技为核心竞争力。而传统金融业,也以自身的数据优势和案例经验,引入数据科学的支撑,通过多种形式,纷纷加入金融科技和数字化转型的洪流中。一个最直接的体现就是在传统商业智能和数据分析这样的工作岗位外,又出现了数据科学家这样职位,高等教育体系中也出现了相应的数据科学方向。

数据科学家之我见

业界对这些职位的要求,一般有别于业务数据分析师和算法以及数据工程师。前者更偏重于以业务知识为基础的数据分析,后者更偏重于以工程实现和使用为核心的建设和优化工作,需要构造数据管道,并且使用复杂的工具和技术来管理数据。而业界的数据科学家,需要利用在统计学和建设机器学习模型方面的专业技术,揭开数据中隐藏着的规律,建立更好的识别模型,产出精确预测效果的数学模型,从而去进行关键商业问题预测和智能决策。非常赞同国内资深的金融数据科学家常国珍博士的观点,数据科学家一定要有业务数据分析的案例经验和算法数据工程的实现能力。

随着数据在业界的应用的深入,等着别人给自己把业务需求定义清楚,自己再把业务问题转化成数据问题,然后等着别人按照自己的要求,给自己准备好数据,再去建模挖掘数据价值,显然不可能是现在的业界对数据科学家的期待。数据实现(Data Hacking) 能力,发现和解决问题(Problem Solving) 能力和沟通(Communication) 能力是业界数据科学家最需要具备的素质,也是可以不断提高进步的方向。

科学家的高水平

今年央视《面对面》节目有一期,采访参加“两弹一星”工作的老先生,回忆当年的经历,中间有说起周光召先生当年的贡献和科学家水平高不高怎么体现。

当年我国自己研制原子弹,为了搞清楚基理,利用基本的物理原理,选取建立相应的模型,并进行计算模拟,对中苏关系破裂前,苏联专家介绍过的一个教学模型留下的记录进行验证。但九次计算,得出的一个重要指标都和苏联专家介绍的不一样。

数据科学家之我见

理论设计中遇到了这个拦路虎,周光召先生被调来参加研制工作。李德元先生评价周先生是个“水平非常高的科学家”。

数据科学家之我见

继续阅读