
大資料文摘出品
來源:medium
編譯:趙吉克
2018年medium上一篇博文分析了資料科學家最需要的技能,那篇文章引起了很大的反響,在medium上有超過11000次點贊,并被翻譯成幾種語言,成為了2018年11月KD Nuggets最受歡迎的文章。
2018年文章連結:
https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db一年多過去了,2019的作者也釋出了最新的分析,讓我們看看有什麼變化。
2018年的文章考察了對統計和溝通交流等一般技能的需求以及對Python和R等技術的需求。軟體技術的變化一定快于一般技能需求上的變化,是以在本更新中隻包括技術部分。
我們搜尋了SimplyHired、Indeed、Monster和LinkedIn以檢視在美工作的清單中哪些關鍵詞和“資料科學家”共同出現。這一次,我們決定用Request和Beautiful Soup包來擷取工作清單,而不是手工搜尋。
事實證明,LinkedIn的爬取要困難得多,因為檢視工作的清單的準确數字需要身份驗證。我決定使用Selenium進行無頭浏覽。2019年9月,美國最高法院對LinkedIn做出了判決,允許其資料被爬取。盡管如此,在幾次抓取嘗試後,還是無法通路賬戶,這個問題可能源于重新整理率限制。
不管怎麼說,微軟擁有LinkedIn,Randstad Holding擁有Monster, Recruit Holdings擁有Indeed和SimplyHired。
無論如何,LinkedIn的資料可能無法提供從去年到今年的蘋果公司職位對比。今年夏天,LinkedIn的一些技術職位搜尋詞每周都會出現大幅波動。這可能是由于他們試圖通過使用自然語言處理來衡量搜尋目的,因而對他們的搜尋結果算法進行了實驗。相比之下,另外三個搜尋網站在過去兩年中出現的“資料科學家”相關職位清單數量則相對接近。
基于這些原因,LinkedIn被排除在本文2019年和2018年的分析之外。
對于每個工作搜尋網站,我們計算了該網站中出現的每個關鍵詞在所有資料科學家工作清單中所占的百分比。然後,在三個站點上為每個關鍵字取這些百分比的平均值。
同時手動調查了新的搜尋詞以及那些看起來很有前途的詞。在2019年,沒有新的搜尋詞達到占全體5%的占有水準,這是下述結果中使用的截斷名額。
PyTorch職位需求翻番
我們采用四種方法來檢視每個關鍵字的結果:
- 方法1:對于每個求職網站,在每個年度用包含關鍵詞的清單數量除以包含data scientist的搜尋詞總數。然後取三個網站的平均值。
- 方法2:看看2018年至2019年這些清單的平均比例變化的絕對值。
- 方法3:看看2018年至2019年這些清單的平均比例變化的相對百分比。
在完成上面的第一個步驟之後,計算每個關鍵字相對于該年度其他關鍵字的排名,然後計算每一年的排名變化。
觀察前三個帶有柱狀圖的選項,然後我們将展示一個包含資料的表并讨論結果。
這是上文中方法1對應的2019年圖表,顯示Python出現在近75%的清單中。
這是上文中方法2的圖表,顯示了2018年至2019年職位清單中某項技能需求的變化。AWS顯示上升了5%。在2019年和2018年上市的公司中,這一比例分别為19.4%和14.6%。
這是上文方法3對應的圖表,顯示了每年的百分比變化。2018年,PyTorch上榜職位需求數平均增長了108.1%。
以下是上述圖表中的資訊用表格形式展示的結果,按2018年至2019年上榜職位比例在三家網站平均後的變化百分比排序。
穩居榜首的python,落寞的R
在不到14個月的時間内技術需求發生了相當大的變化!
優勝者
Python仍然排名第一。到目前為止,它是最常用的語言。幾乎霸占了四分之三的榜單,與2018年相比,Python使用量有了可觀的增長。
SQL使用量快速提升。它幾乎快要超過獲得第二高平均分數的R語言。如果繼續保持該趨勢,SQL很快将成為真正的第二。
傑出的深度學習架構得到了廣泛使用。PyTorch在所有關鍵字中的增幅最大,Keras和TensorFlow也表現出色。Keras和PyTorch在排名中均上升了4位,TensorFlow上升了3位。請注意,由于PyTorch的起始平均值較低,TensorFlow的目前平均值仍是PyTorch平均值的兩倍。
資料科學家對雲平台技能的需求越來越大。AWS的出現頻率高達20%,Azure約10%。Azure在排名中躍升了四位。
落敗者
R語言的總體平均下降幅度最大。基于其他調研,這一趨勢不足為奇。Python顯然已經取代R成為資料科學的首選語言。 盡管如此,R仍然非常受歡迎,出現在55%的榜單中。如果您熟悉R語言,請不要沮喪,但如果您想要掌握需求量更大的技能,請考慮學習Python。
許多Apache産品受到歡迎,包括Pig,Hive,Hadoop和Spark。Pig的排名下降了5位,比任何其他技術都下降得多。Spark和Hadoop仍然是人們普遍希望掌握的技能,但是我認為,轉向其他大資料技術已經成為一種趨勢。
專有的統計軟體包MATLAB和SAS使用量急劇下降。 MATLAB在排名中下降了四位,而SAS從第六位下降到第八位。與2018年的平均水準相比,兩種語言均出現了大幅下降。
推薦一個學習路徑
如果你剛開始從事資料科學,我建議你專注于需求增長和有發展潛力的技術,并且每次隻專心學習一種技能
以下是我推薦的學習路徑:
- 學習Python以掌握正常程式設計;
- 學習pandas來進行資料操作;
- 通過Scikit-learn庫學習機器學習;
- 學習用于高效查詢相關資料庫的SQL;
- 學習Tableau以進行資料可視化;
- 關于雲計算平台,基于AWS的市場佔有率,它是一個不錯的選擇;
- 學習一個機器學習架構,Keras現在與TensorFlow緊密結合,是以它是一個很好的起點,PyTorch也在迅速發展。
這是我的總體學習路徑建議。按照你的需要各取所需吧。
相關報道:
https://towardsdatascience.com/the-most-in-demand-tech-skills-for-data-scientists-d716d10c191d