天天看點

現代資料科學家的“忍者”技能

雲栖号: https://yqh.aliyun.com 第一手的上雲資訊,不同行業精選的上雲企業案例庫,基于衆多成功案例萃取而成的最佳實踐,助力您上雲決策!

用外行人的話來說,火箭專家就是一個具有火箭科學知識(并在火箭科學方面具有驚人經驗)的人。要成為一名資料科學家并不難。(我說的不難,并不是說每個小孩都可以擔任資料科學家。要知道,成為一名噴氣式飛行員并不需要掌握火箭科學方面的知識,但仍然也需要付出很多努力。)

現代資料科學家的“忍者”技能

在和 Linkedln 上的許多資料科學家進行交流之後,我寫下了這篇文章,收集了其他人 30 多年的經驗。在本文中,你将會發現資料科學家很多令人驚歎的經曆。

讓我們來看看,如果要成為一名資料科學家,都必須掌握哪些所需的技能。

1. 數學與統計學

  1. 機器學習

各種機器學習技術的的知識,就好比任何資料科學家的“心髒”一樣。很難想象,會有這樣的資料科學家,居然沒有機器學習方面的知識。大多數公司要求機器學習工程師至少具備 3~5 年的基礎經驗,之後,才有資格成為任何組織的資料科學家。

在人工智能項目中,機器學習工程師就是“萬事通”。萬事通意味着,對問題定義、資料分析、結果展示和測試都有透徹的了解。它包括了從預處理到選擇合适的算法來解決問題,再到以出色的可視化方式來展示結果的方方面面。整個過程都要靠你自己動手,因為你既是開發人員,又是分析人員,同時還是測試人員。

是以基本上,你需要擁有機器學習的“超能力”。

雖然你不必親自編寫每一行代碼,但是了解機器學習是很重要的。

  1. 統計模組化

    統計學在資料科學家的工作中起着非常重要的作用。僅僅是編寫機器學習算法的代碼這一項,你就必須對資料進行更多的分析。最後,經過充分預處理的資料可能意味着你的項目已經完成了一半。

你需要對評估矩陣,以及一些參數,如正确率、錯誤率、精确度、召回率、F1 分數和其他術語有一個基本的了解,才能完成你的任務。對機率和統計有着超強了解的人可以像資料科學領域的國王一樣統治世界。

  1. 貝葉斯推斷

    貝葉斯理論是資料分析領域中最重要的理論。資料革命始于貝葉斯理論。掌握貝葉斯理論的基礎知識,将會使你在資料科學競賽中所向披靡,勢如破竹。掌握這一理論,你才能夠輕松地從其他競争對手中脫穎而出。

  2. 有監督學習和無監督學習

    如果資料科學家沒有監督算法知識,就好比沒有球的足球運動員。試想,如果一場足球賽中,球員在沒有球的情況下進行比賽,會是什麼樣子?兩個字:愚蠢。同理,如果資料科學家沒有掌握有監督算法和無監督算法的知識,也是一樣的情景。

有監督算法包括線性回歸、邏輯回歸、樸素貝葉斯線性判别分析、決策樹、K- 最近鄰算法、支援向量機、神經網絡(多層感覺器)等。

無監督算法包括層次聚類、K- 均值、混合模型、 DBSCAN、OPTICS 算法、主成分分析等等。

  1. 優化

    優化是一項不為多數人所能掌握的技能。這是使你有别于其他開發人員的關鍵因素。訓練模型并不很重要,但是,建立一個優化版本的模型需要進行大量的工作。超參數每天都會讓你頭疼,如果你對優化有着完美的了解,對你來說,優化就像進行一場沒有任何障礙的比賽。是以,要成為一名“英雄”,就要優化你的優化技能。

2. 程式設計與資料庫

  1. 計算機科學基礎

    計算機科學技能是很少有人能掌握的。但我有很多熟人,他們都是專業的機械工程師。他們開始學習 Python,然後轉入資料科學領域。你會驚訝的發現,他們的表現就像冠軍一樣。

但是,計算機科學概念對資料科學家的角色來說,是非常重要的要求。如果你能夠掌握算法、作業系統、Web 開發和設計、計算機網絡的基礎知識将會帶來很大的不同。掌握這些概念,将會使你的速度提高十倍。

  1. 腳本和程式設計語言

    如果沒有 Python、R 或 MatLab 這樣的腳本或程式設計語言,就不可能想象資料科學家的生活會是什麼樣子的。如果你沒有掌握這些腳本或程式設計語言中的任何一個,那麼就請你自己出局吧。沒有花花草草的話,你就永遠不會有一座花園。你能想象沒有花花草草的花園是什麼樣子的嗎?試想一下,那不是花園,那是沙漠。而你必須在沙漠裡耕作。這怎麼可能呢?你不僅需要了解 Python,還需要了解一些更進階的庫,如 TensorFlow、PyTorch、帶 MatplotLib 的 Keras、Numpy 和 Pandas。

是以,在腳本和程式設計語言方面,沒有妥協的地方。就像 NO NO NO NO NO NO。就是這樣!

現代資料科學家的“忍者”技能
  1. 資料庫 SQL 和 NoSQL

    每個項目都有自己的資料和存儲格式。全面了解各種資料庫,可以幫助你了解和定義項目特有的問題。

資料可以是任何形式的。你隻需接受這些資料就可以了。你不能對客戶說,“不行,我想要不同格式的資料。”記住,你的職責就是将資料轉換成所需的算法輸入,并對其進行預處理。資料科學界指出,粗略的資料會降低正确性,但大量的非結構化資料會帶來意想不到的結果。但這需要創新的想法來解決。這時候,如果你掌握不同資料庫的知識,将有助于你解決問題。它可以是結構化的、非結構化的、圖像、文本、音頻或者其他東西。

  1. 将資料轉換為可視化

    可視化是一件令人驚歎的事情,你可以用資料來做。當你感受到可視化的重要性時,你就會從内部感受到資料。可視化是展示結果的最佳方式。在示範中不用說一句話,你的老闆就會明白一切。是以,它是資料科學領域取得成功的關鍵。

  2. 資料科學工具知識

    不同工具的指令就像在比賽中使用特斯拉賽博皮卡一樣。當然,你也可以用“塔塔 Nano”(印度生産的全球最便宜的汽車)完成一場比賽,但是,這值得去完成一場比賽嗎?明智地使用任何工具也是一項技能。所有的工具都可以在網際網路上找到,但你必須能夠正确地使用它。

像 Tableau、SAS、Apache Spark、Excel、RapidMiner、KNIME、QlikView 這樣的工具,可以提高你的效率并縮短項目期限。

  1. 雲計算

    對雲計算的了解并不是必須的,但可以作為一種資産。一些内置的庫和服務可以很好地使用,比如,Google MLKit、Google Colaboratory、Kaggle 伺服器、IBM Watson 和其他 API、Microsoft Azure AI 工具包和 AWS 存儲。

至此,全部技術細節我都講完了。

但是,你仍然對如何成為一名資料科學家一無所知。

3. 領域知識和軟技能

  1. 對業務充滿熱情

    資料科學家也經常從業務角度考慮問題,因為歸根結底,什麼才是最重要的呢?錢。是的,我再說一次,錢!

你必須有很強的業務政策。它會提升你在組織中的價值,最重要的是你的名聲。作為資料科學家,有一個關于業務視角的想法是很好的。

  1. 對資料充滿好奇心

    優秀的資料科學家具備根據自己的經驗以不同的方式看待資料的技能。資料科學家能看到的東西,初級工程師往往看不到,是因為資料科學家有經驗的“放大鏡”和驚人的才能。是以,資料很能說明問題。作為一名資料科學家,你隻需仔細聆聽。

  2. 問題解決能手

    人工智能是沒有人能夠做到完美境界的領域。你可以面對很多挑戰,隻要你能夠跳出框框想問題即可。從字面上來看,解決問題就需要跳出框框來思考。你身邊有個解決方案,但你隻需将它放入你的腦海中,它就會解決你的問題。

  3. 戰略決策者

    作為一名資料科學家,在某些階段,你必須更上一層樓,因為,在完成某些任務後,你将會意識到,使用另一種技術,可以更輕松的完成這項任務。是以,要運用一些腦力和技巧來做決定。隻需繼續使用基本的解決方案,然後再回來應用一些進階版本即可。

4. 溝 通

  1. 與進階管理層接觸

    這完全是關于人脈關系網、人際交往技巧和個人能力的問題。一分耕耘,一分收獲。這就像是你的資料科學職業競賽中的強力助推器。與機構接觸,他們會在組織需要的時候幫助你。與上級保持良好的溝通,可以讓你及時了解即将進行的項目。提前做好準備是最好的表現方式。

  2. 講故事的技巧

    作為資料科學家,你必須參加很多會議,從董事會到客戶,再從首席技術官到許多其他人。是以,如果不給他們展示代碼的話,你就必須給他們解釋一個場景。是以,隻要展示你的魔力,人們就會認為你是天使。隻要把故事講好,你就可以睡個好覺了。

  3. 了解人工智能的最新趨勢

    要随時了解市場上的最新趨勢和技術。這會讓你成為一個積極的上司者。在這個技術時代(21 世紀),隻有積極的上司者才能統治世界。

如果你擁有這些技能,那麼你就是這個競賽的冠軍。這可是神一般的水準啊!

現代資料科學家的“忍者”技能

原文釋出時間:2020-1-17

本文作者:Khush Patel

本文來自阿裡雲雲栖号合作夥伴“

AI前線

”,了解相關資訊可以關注“