天天看點

最新出爐——資料科學家最常使用的十大算法

本文來自于kdnuggets所做的十大算法調查,對于資料工程師常用的算法進行排名,并對其在2011-2016年間的變化進行介紹。

最新出爐——資料科學家最常使用的十大算法

基于調查,kdnuggets總結出了資料科學家最常使用的十大算法,它們分别是:

1. regression 回歸算法 2. clustering 聚類算法 3. decision trees/rules 決策樹 4. visualization 可視化 5. k-nearest neighbor 鄰近算法 6. pca (principal component analysis) 主成分分析算法 7. statistics 統計算法 8. random forests 随機森林算法 9. time series/sequence 時間序列 10. text mining 文本挖掘
最新出爐——資料科學家最常使用的十大算法

其中,受訪者表示平均使用了8.1個算法,相比2011年類似的調查大幅提高了。

與2011年的類似調查對比我們發現最流行的算法還是回歸算法、聚類算法、決策樹和可視化。相對來說最大的增長是由 (pct2016 /pct2011 - 1) 測定的以下算法:

boosting,從 2011 年的 23.5% 至 2016 年的 32.8%,同比增長 40% 文本挖掘,從 2011 年的 27.7% 至 2016 年的 35.9%,同比增長 30% 可視化,從 2011 年的 38.3% 至 2016 年的 48.7%,同比增長 27% 時間序列,從 2011 年的 29.6% 至 2016 年的 37.0%,同比增長 25% 異常/偏差檢測,從 2011 年的 16.4% 至 2016 年的 19.5%,同比增長 19% 內建方法,從 2011 年的 28.3%至 2016 年的 33.6%,同比增長 19% 支援向量機,從 2011 年的 28.6% 至 2016 年的 33.6%,同比增長 18% 回歸算法,從 2011 年的 57.9% 至 2016 年的 67.1%,同比增長 16%

另外,2016年最流行的新算法分别是:

k-近鄰,46% 主成分分析,43% 随機森林算法,38% 優化,24% 神經網絡 - 深度學習,19% 奇異值分解,16%

下降最多的分别是:

關聯規則,從 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47% 增量模型,從 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36% 因素分析,從 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24% 生存分析,從 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%
最新出爐——資料科學家最常使用的十大算法

我們注意到幾乎所有人都在使用監督學習算法。

政府和工業界資料科學家比學生或者學術研究院使用更多不同的算法,而且工業界資料科學家更傾向于使用元算法。

下面,我們繼續通過雇員的類型來分析最流行的10個算法和深度學習。

最新出爐——資料科學家最常使用的十大算法

為了讓這些差異更容易觀看,我們針對特定雇員類型相關的平均算法使用量設計了一個算法。

bias(alg,type)=usage(alg,type)/usage(alg,all) - 1.
最新出爐——資料科學家最常使用的十大算法

我們注意到:

工業界資料科學家更傾向于使用回歸算法、可視化、統計算法、随機森林算法以及時間序列 政府/非盈利組織更傾向于使用可視化、主成分分析算以及時間序列 學術界研究人員更傾向于使用主成分分析算法和深度學習 學生一般使用的算法較少,但是它們會做更多的文本挖掘以及深度學習

 另外,參與投票的讀者主要來自于

美國/加拿大, 40% 歐洲, 32% 亞洲, 18% 拉丁美洲, 5.0% 非洲/中東, 3.4% 澳洲/紐西蘭, 2.2%

在 2011 年的調查中,我們将産業/政府分在了同一組,将學術研究人員/學生分在了第二組,另外通過算法對于業界/政府的“親切度”進行了計算:

n(alg,ind_gov) / n(alg,aca_stu) ------------------------------- - 1 n(ind_gov) / n(aca_stu)

親切度為 0 的算法表示其在産業/政府和學術研究人員/學生之間的使用情況對等。ig親切度越高表示該算法越被産業界普遍使用,反之越“學術”。 

其中,最“産業”的算法是:

增量模型uplift modeling,2.01 異常檢測anomaly detection,1.61 生存分析survival analysis,1.39 因子分析factor analysis,0.83 時間序列time series/sequences,0.69 關聯規則association rules,0.5

其中增量模型uplift modeling又一次成了最“産業”的算法,但是令人驚訝的是其使用率确很低—隻有3.1%,幾乎是這次調查中使用率最低的算法。

最“學術”的算法是:

神經網絡neural networks - regular, -0.35 樸素貝葉斯naive bayes, -0.35 支援向量機svm, -0.24 深度學習deep learning, -0.19 em, -0.17

下圖是所有算法以及它們在産業界/學術界的親切度:

最新出爐——資料科學家最常使用的十大算法

資料科學家最常使用的算法 工業界 vs 學術界

彙總表格中各項含義分别是:

n:根據使用度排名 algorithm:算法名稱, 類型:s - 監督,u - 無監督,m - 元,z - 其他, %指代調查中使用這種算法的調查者比例 change—變動(%2016 年/2011% - 1), industry affinity—産業親切度(前文中提到)
最新出爐——資料科學家最常使用的十大算法

本文由雷鋒網(公衆号:雷鋒網)獨家編譯,未經許可拒絕轉載!

via kdnuggets

題圖來子data scientists at work

本文作者:李尊

繼續閱讀