天天看點

資料科學家之我見

"一代人終将老去"

今年中秋節在十一,全國人民歡度團圓的佳節時,也在慶祝祖國的生日。在回顧新中國各項成就的文章中,不少都提到了“兩彈一星”。還有不少在回顧,為完成這項成就做出傑出貢獻的科學家,特别是國慶五十年之際黨和國家隆重表彰的23位“兩彈一星”元勳,為了國家的急迫需要,從五湖四海來幹驚天動地事的事迹。

資料科學家之我見

兩彈一星元勳

時光匆匆,白駒過隙。節日期間親朋聚會,席間說到周光召先生已經年過九旬,住進北京醫院轉眼也10年了。周光召先生是23位“兩彈一星”元勳中最年輕的一位,1961年從蘇聯被召回國參加核武器理論研究時才32歲。

資料科學家之我見

"但總有人正年輕"

“當今世界正經曆百年未有之大變局”。過去十年伴随着以大資料和機器學習為代表的技術革新和應用,極大的改變了學術研究和工業應用的面貌。進而引起了從國家戰略到資本市場的極大關注,進而吸引了現在年輕人的目光。

伴随着資料的海量增長,資料雖然有廣泛性多樣性的特點,但資料研究具有共性,資料應用技術的發展具有迫切性,出現了以資訊科學技術、統計學、機器學習等學科為基礎的資料科學。非常贊同鄂維南院士關于資料科學的表述:“資料科學主要包括兩個方面:用資料的方法來研究科學和用科學的方法來研究資料。前者包括生物資訊學、天體資訊學、數字地球等領域;後者包括統計學、機器學習、資料挖掘、資料庫等領域。這些學科都是資料科學的重要組成部分, 但隻有把它們有機地整合在一起,才能形成整個資料科學的全貌。”

鄂院士2019年獲得Peter Henrici獎時在國際工業與應用數學大會上所做的報告中進一步指出:機器學習提供了解決“高維資料的處理能力相當有限”這一科學基礎障礙的新工具。将機器學習引入到科學模組化将會給我們提供意想不到的能力,甚至很可能會改變人們做科學和工程的方式。将機器學習(代表開普勒範式)與基于第一性原理的實體模組化(代表牛頓範式)相結合,為科學研究開辟了一個新的強大範式。現在正處在一場新的科學革命的邊緣,這場革命不僅将對科學産生影響,而且将從根本上影響數學和應用數學。

資料科學家之我見

在工業界和應用領域,以大資料(Big Data)、人工智能(AI)、雲計算(Cloud Computing)、區塊鍊(Block Chain)等技術為依托,很多行業的面貌都發生了翻天覆地的變化。國際上的谷歌、臉書、亞馬遜,國内的BATJ等PC網際網路起家,以及近年崛起的位元組跳動等移動網際網路新貴,無一不在這些資料領域投入巨大,以求創新。

以金融領域為例,這些ABCD直接催生了金融科技(FinTech)的誕生。國内以螞蟻金服、京東數科為代表的網際網路金融創新都以為金融科技為核心競争力。而傳統金融業,也以自身的資料優勢和案例經驗,引入資料科學的支撐,通過多種形式,紛紛加入金融科技和數字化轉型的洪流中。一個最直接的展現就是在傳統商業智能和資料分析這樣的工作崗位外,又出現了資料科學家這樣職位,高等教育體系中也出現了相應的資料科學方向。

資料科學家之我見

業界對這些職位的要求,一般有别于業務資料分析師和算法以及資料工程師。前者更偏重于以業務知識為基礎的資料分析,後者更偏重于以工程實作和使用為核心的建設和優化工作,需要構造資料管道,并且使用複雜的工具和技術來管理資料。而業界的資料科學家,需要利用在統計學和建設機器學習模型方面的專業技術,揭開資料中隐藏着的規律,建立更好的識别模型,産出精确預測效果的數學模型,進而去進行關鍵商業問題預測和智能決策。非常贊同國内資深的金融資料科學家常國珍博士的觀點,資料科學家一定要有業務資料分析的案例經驗和算法資料工程的實作能力。

随着資料在業界的應用的深入,等着别人給自己把業務需求定義清楚,自己再把業務問題轉化成資料問題,然後等着别人按照自己的要求,給自己準備好資料,再去模組化挖掘資料價值,顯然不可能是現在的業界對資料科學家的期待。資料實作(Data Hacking) 能力,發現和解決問題(Problem Solving) 能力和溝通(Communication) 能力是業界資料科學家最需要具備的素質,也是可以不斷提高進步的方向。

科學家的高水準

今年央視《面對面》節目有一期,采訪參加“兩彈一星”工作的老先生,回憶當年的經曆,中間有說起周光召先生當年的貢獻和科學家水準高不高怎麼展現。

當年我國自己研制原子彈,為了搞清楚基理,利用基本的實體原理,選取建立相應的模型,并進行計算模拟,對中蘇關系破裂前,蘇聯專家介紹過的一個教學模型留下的記錄進行驗證。但九次計算,得出的一個重要名額都和蘇聯專家介紹的不一樣。

資料科學家之我見

理論設計中遇到了這個攔路虎,周光召先生被調來參加研制工作。李德元先生評價周先生是個“水準非常高的科學家”。

資料科學家之我見

繼續閱讀