最新出爐——資料科學家最常使用的十大算法

本文來自于kdnuggets所做的十大算法調查，對于資料工程師常用的算法進行排名，并對其在2011-2016年間的變化進行介紹。

基于調查，kdnuggets總結出了資料科學家最常使用的十大算法，它們分别是：

1. regression 回歸算法 2. clustering 聚類算法 3. decision trees/rules 決策樹 4. visualization 可視化 5. k-nearest neighbor 鄰近算法 6. pca (principal component analysis) 主成分分析算法 7. statistics 統計算法 8. random forests 随機森林算法 9. time series/sequence 時間序列 10. text mining 文本挖掘

其中，受訪者表示平均使用了8.1個算法，相比2011年類似的調查大幅提高了。

與2011年的類似調查對比我們發現最流行的算法還是回歸算法、聚類算法、決策樹和可視化。相對來說最大的增長是由 (pct2016 /pct2011 - 1) 測定的以下算法：

boosting，從 2011 年的 23.5% 至 2016 年的 32.8％，同比增長 40％文本挖掘，從 2011 年的 27.7% 至 2016 年的 35.9％，同比增長 30％可視化，從 2011 年的 38.3% 至 2016 年的 48.7％，同比增長 27％時間序列，從 2011 年的 29.6% 至 2016 年的 37.0%，同比增長 25％異常/偏差檢測，從 2011 年的 16.4% 至 2016 年的 19.5％，同比增長 19％內建方法，從 2011 年的 28.3％至 2016 年的 33.6％，同比增長 19％支援向量機，從 2011 年的 28.6% 至 2016 年的 33.6％，同比增長 18％回歸算法，從 2011 年的 57.9% 至 2016 年的 67.1％，同比增長 16％

另外，2016年最流行的新算法分别是：

k-近鄰，46％主成分分析，43％随機森林算法，38％優化，24％神經網絡 - 深度學習，19％奇異值分解，16％

下降最多的分别是：

關聯規則，從 2011 年的 28.6% 至 2016 年的 15.3％，同比下降 47％增量模型，從 2011 年的 4.8% 至 2016 年的 3.1％，同比下降 36％因素分析，從 2011 年的 18.6% 至 2016 年的 14.2％，同比下降 24％生存分析，從 2011 年的 9.3% 至 2016 年的 7.9％，同比下降 15％

我們注意到幾乎所有人都在使用監督學習算法。

政府和工業界資料科學家比學生或者學術研究院使用更多不同的算法，而且工業界資料科學家更傾向于使用元算法。

下面，我們繼續通過雇員的類型來分析最流行的10個算法和深度學習。

為了讓這些差異更容易觀看，我們針對特定雇員類型相關的平均算法使用量設計了一個算法。

bias(alg,type)=usage(alg,type)/usage(alg,all) - 1.

我們注意到：

工業界資料科學家更傾向于使用回歸算法、可視化、統計算法、随機森林算法以及時間序列政府/非盈利組織更傾向于使用可視化、主成分分析算以及時間序列學術界研究人員更傾向于使用主成分分析算法和深度學習學生一般使用的算法較少，但是它們會做更多的文本挖掘以及深度學習

另外，參與投票的讀者主要來自于

美國/加拿大, 40% 歐洲, 32% 亞洲, 18% 拉丁美洲, 5.0% 非洲/中東, 3.4% 澳洲/紐西蘭, 2.2%

在 2011 年的調查中，我們将産業/政府分在了同一組，将學術研究人員/學生分在了第二組，另外通過算法對于業界/政府的“親切度”進行了計算：

n(alg,ind_gov) / n(alg,aca_stu) ------------------------------- - 1 n(ind_gov) / n(aca_stu)

親切度為 0 的算法表示其在産業/政府和學術研究人員/學生之間的使用情況對等。ig親切度越高表示該算法越被産業界普遍使用，反之越“學術”。

其中，最“産業”的算法是：

增量模型uplift modeling，2.01 異常檢測anomaly detection，1.61 生存分析survival analysis，1.39 因子分析factor analysis，0.83 時間序列time series/sequences，0.69 關聯規則association rules，0.5

其中增量模型uplift modeling又一次成了最“産業”的算法，但是令人驚訝的是其使用率确很低—隻有3.1%，幾乎是這次調查中使用率最低的算法。

最“學術”的算法是：

神經網絡neural networks - regular, -0.35 樸素貝葉斯naive bayes, -0.35 支援向量機svm, -0.24 深度學習deep learning, -0.19 em, -0.17

下圖是所有算法以及它們在産業界/學術界的親切度：

資料科學家最常使用的算法工業界 vs 學術界

彙總表格中各項含義分别是：

n：根據使用度排名 algorithm：算法名稱，類型：s - 監督，u - 無監督，m - 元，z - 其他， %指代調查中使用這種算法的調查者比例 change—變動（％2016 年/2011％ - 1）， industry affinity—産業親切度（前文中提到）

本文由雷鋒網(公衆号：雷鋒網)獨家編譯，未經許可拒絕轉載！

via kdnuggets

題圖來子data scientists at work

本文作者：李尊

最新出爐——資料科學家最常使用的十大算法

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希