常用的機器學習&資料挖掘知識(點)

常用的機器學習&資料挖掘知識(點）聲明：想做機器學習&資料挖掘的學弟學妹，可以看看，轉載請說明出處...

常用的資料挖掘&機器學習知識(點)

Basis(基礎)：

MSE(MeanSquare Error 均方誤差)，LMS(Least MeanSquare 最小均方)，LSM(Least Square Methods 最小二乘法)，MLE(Maximum LikelihoodEstimation最大似然估計)，QP(QuadraticProgramming 二次規劃)， CP(ConditionalProbability條件機率)，JP(Joint Probability 聯合機率)，MP(Marginal Probability邊緣機率)，Bayesian Formula(貝葉斯公式)，L1 /L2Regularization(L1/L2正則，以及更多的，現在比較火的L2.5正則等)，GD(Gradient Descent 梯度下降)，SGD(Stochastic GradientDescent 随機梯度下降)，Eigenvalue(特征值)，Eigenvector(特征向量)，QR-decomposition(QR分解)，Quantile (分位數)，Covariance(協方差矩陣)。

Common Distribution(常見分布)：

Discrete Distribution(離散型分布)：Bernoulli Distribution/Binomial(貝努利分步/二項分布)，Negative BinomialDistribution(負二項分布)，Multinomial Distribution(多式分布)，Geometric Distribution(幾何分布)，Hypergeometric Distribution(超幾何分布)，Poisson Distribution (泊松分布)

ContinuousDistribution (連續型分布)：Uniform Distribution(均勻分布)，Normal Distribution/GaussianDistribution(正态分布/高斯分布)，Exponential Distribution(指數分布)，Lognormal Distribution(對數正态分布)，Gamma Distribution(Gamma分布)，Beta Distribution(Beta分布)，Dirichlet Distribution(狄利克雷分布)，Rayleigh Distribution(瑞利分布)，Cauchy Distribution(柯西分布)，Weibull Distribution (韋伯分布)

Three Sampling Distribution(三大抽樣分布)：Chi-square Distribution(卡方分布)，t-distribution(t-distribution)，F-distribution(F-分布)

Data Pre-processing(資料預處理)：

MissingValue Imputation(缺失值填充)，Discretization(離散化)，Mapping(映射)，Normalization(歸一化/标準化)。

Sampling(采樣)：

SimpleRandom Sampling(簡單随機采樣)，Offline Sampling(離線等可能K采樣)，Online Sampling(線上等可能K采樣)，Ratio-based Sampling(等比例随機采樣)，Acceptance-rejection Sampling(接受-拒絕采樣)，Importance Sampling(重要性采樣)，MCMC(Markov Chain MonteCarlo 馬爾科夫蒙特卡羅采樣算法：Metropolis-Hasting& Gibbs)。

Clustering(聚類)：

K-Means，K-Mediods，二分K-Means，FK-Means，Canopy，Spectral-KMeans(譜聚類)，GMM-EM(混合高斯模型-期望最大化算法解決)，K-Pototypes，CLARANS(基于劃分)，BIRCH(基于層次)，CURE(基于層次)，DBSCAN(基于密度)，CLIQUE(基于密度和基于網格)，2014年Science上的密度聚類算法等

Clustering EffectivenessEvaluation(聚類效果評估)：

Purity(純度)，RI(Rand Index，芮氏名額)，ARI(Adjusted Rand Index，調整的芮氏名額)，NMI(NormalizedMutual Information，規範化互資訊)，F-meaure(F測量)等。

Classification&Regression(分類&回歸)：

LR(LinearRegression 線性回歸)，LR(Logistic Regression邏輯回歸)，SR(SoftmaxRegression 多分類邏輯回歸)，GLM(Generalized LinearModel 廣義線性模型)，RR(Ridge Regression 嶺回歸/L2正則最小二乘回歸)，LASSO(Least AbsoluteShrinkage and Selectionator Operator L1正則最小二乘回歸)， RF(随機森林)，DT(Decision Tree決策樹)，GBDT(Gradient BoostingDecision Tree 梯度下降決策樹)，CART(Classification AndRegression Tree 分類回歸樹)，KNN(K-Nearest Neighbor K近鄰)，SVM(Support Vector Machine，支援向量機，包括SVC（分類）&SVR（回歸）)，KF(Kernel Function 核函數Polynomial KernelFunction 多項式核函數、Guassian Kernel Function 高斯核函數/Radial Basis Function RBF徑向基函數、String Kernel Function 字元串核函數)、 NB(Naive Bayes 樸素貝葉斯)，BN(BayesianNetwork/Bayesian Belief Network/Belief Network 貝葉斯網絡/貝葉斯信度網絡/信念網絡)，LDA(Linear DiscriminantAnalysis/Fisher Linear Discriminant 線性判别分析/Fisher線性判别)，EL(Ensemble Learning內建學習Boosting，Bagging，Stacking)，AdaBoost(AdaptiveBoosting 自适應增強)，MEM(Maximum Entropy Model最大熵模型)

Classification EffectivenessEvaluation(分類效果評估)：

ConfusionMatrix(混淆矩陣)，Precision(精确度)，Recall(召回率)，Accuracy(準确率)，F-score(F得分)，ROC Curve(ROC曲線)，AUC(AUC面積)，Lift Curve(Lift曲線) ，KS Curve(KS曲線)。

PGM(ProbabilisticGraphical Models機率圖模型)：

BN(BayesianNetwork/Bayesian Belief Network/ Belief Network 貝葉斯網絡/貝葉斯信度網絡/信念網絡)，MC(Markov Chain 馬爾科夫鍊)，HMM(Hidden MarkovModel 馬爾科夫模型)，MEMM(Maximum EntropyMarkov Model 最大熵馬爾科夫模型)，CRF(Conditional RandomField 條件随機場)，MRF(Markov RandomField 馬爾科夫随機場)。

NN(Neural Network神經網絡)：

ANN(ArtificialNeural Network 人工神經網絡)，BP(Error Back Propagation 誤差反向傳播)，HN（Hopfield Network），

RNN(Recurrent Neural Network，循環神經網絡），SRN（Simple Recurrent Network，簡單的循環神經網絡），ESN（Echo State Network，回聲狀态網絡），LSTM（Long Short Term Memory 長短記憶神經網絡），CW-RNN（Clockwork

Recurrent Neural Network，時鐘驅動循環神經網絡，2014ICML）等。

Deep Learning(深度學習)：

Auto-encoder(自動編碼器)，SAE(Stacked Auto-encoders堆疊自動編碼器：Sparse Auto-encoders稀疏自動編碼器、Denoising Auto-encoders去噪自動編碼器、ContractiveAuto-encoders 收縮自動編碼器)，RBM(Restricted BoltzmannMachine 受限玻爾茲曼機)，DBN(Deep BeliefNetwork 深度信念網絡)，CNN(Convolutional NeuralNetwork 卷積神經網絡)，Word2Vec(詞向量學習模型)。

Dimensionality Reduction(降維)：

LDA(LinearDiscriminant Analysis/Fisher Linear Discriminant 線性判别分析/Fish線性判别)，PCA(Principal ComponentAnalysis 主成分分析)，ICA(Independent ComponentAnalysis 獨立成分分析)，SVD(Singular ValueDecomposition 奇異值分解)，FA(Factor Analysis 因子分析法)。

Text Mining(文本挖掘)：

VSM(Vector SpaceModel向量空間模型)，Word2Vec(詞向量學習模型)，TF(Term Frequency詞頻)，TF-IDF(TermFrequency-Inverse Document Frequency 詞頻-逆向文檔頻率)，MI(Mutual Information 互資訊)，ECE(Expected CrossEntropy 期望交叉熵)，QEMI(二次資訊熵)，IG(Information Gain 資訊增益)，IGR(InformationGain Ratio 資訊增益率)，Gini(基尼系數)，x2 Statistic(x2統計量)，TEW(Text EvidenceWeight文本證據權)，OR(OddsRatio 優勢率)，N-Gram Model，LSA(LatentSemantic Analysis 潛在語義分析)，PLSA(ProbabilisticLatent Semantic Analysis 基于機率的潛在語義分析)，LDA(Latent DirichletAllocation 潛在狄利克雷模型)，SLM(StatisticalLanguage Model，統計語言模型)，NPLM(NeuralProbabilistic Language Model，神經機率語言模型)，CBOW(Continuous Bag of Words Model，連續詞袋模型)，Skip-gram(Skip-gramModel)等。

Association Mining(關聯挖掘)：

Apriori，FP-growth(FrequencyPattern Tree Growth 頻繁模式樹生長算法)，AprioriAll，Spade。

Recommendation Engine(推薦引擎)：

DBR(Demographic-basedRecommendation 基于人口統計學的推薦)，CBR(Context-based Recommendation 基于内容的推薦)，CF(Collaborative Filtering協同過濾)，UCF(User-based CollaborativeFiltering Recommendation 基于使用者的協同過濾推薦)，ICF(Item-based CollaborativeFiltering Recommendation 基于項目的協同過濾推薦)。

SimilarityMeasure&Distance Measure(相似性與距離度量)：

EuclideanDistance(歐式距離)，Manhattan Distance(曼哈頓距離)，Chebyshev Distance(切比雪夫距離)，Minkowski Distance(闵可夫斯基距離)，Standardized EuclideanDistance(标準化歐氏距離)，Mahalanobis Distance(馬氏距離)，Cos(Cosine 餘弦)，Hamming Distance/EditDistance(漢明距離/編輯距離)，Jaccard Distance(傑卡德距離)，Correlation CoefficientDistance(相關系數距離)，Information Entropy(資訊熵)，KL(Kullback-LeiblerDivergence KL散度/Relative Entropy 相對熵)。

Optimization(最優化)：

Non-constrained Optimization(無限制優化)：Cyclic Variable Methods(變量輪換法)，Pattern Search Methods(模式搜尋法)，Variable Simplex Methods(可變單純形法)，Gradient Descent Methods(梯度下降法)，Newton Methods(牛頓法)，Quasi-Newton Methods(拟牛頓法)，Conjugate GradientMethods(共轭梯度法)。

ConstrainedOptimization(有限制優化)：Approximation ProgrammingMethods(近似規劃法)，Feasible DirectionMethods(可行方向法)，Penalty Function Methods(罰函數法)，Multiplier Methods(乘子法)。

HeuristicAlgorithm(啟發式算法)，SA(Simulated Annealing，模拟退火算法)，GA(genetic algorithm遺傳算法)

Feature Selection(特征選擇)：

MutualInformation(互資訊)，Document Frequence(文檔頻率)，Information Gain(資訊增益)，Chi-squared Test(卡方檢驗)，Gini(基尼系數)。

Outlier Detection(異常點檢測)：

Statistic-based(基于統計)，Distance-based(基于距離)，Density-based(基于密度)，Clustering-based(基于聚類)。

Learning to Rank(基于學習的排序)：

Pointwise：McRank；

Pairwise：RankingSVM，RankNet，Frank，RankBoost；

Listwise：AdaRank，SoftRank，LamdaMART；

Tool(工具)：

MPI，Hadoop生态圈，Spark，BSP，Weka，Mahout，Scikit-learn，PyBrain…

以及一些具體的業務場景與case等。

後面有機會将針對這些進行知識(面)的總結，有錯誤請指正...

轉載請說明出處..........

常用的機器學習&資料挖掘知識(點)

繼續閱讀

SVM推薦閱讀文獻及部落格

機器學習系列(2)_從初等數學視角解讀邏輯回歸

GBDT算法模型

PCA解析

python opencv擷取視訊基本資訊

遺傳算法一.進化論知識　作為遺傳算法生物背景的介紹，下面内容了解即可：二.遺傳算法思想三.基本遺傳算法的僞代碼

從HMM到MEMM再到CRF

資料挖掘學習之特征工程 2 資料預處理 2.1存在缺失值：缺失值需要補充。 2.2異常值處理直接删除、 2.3不屬于同一量綱：即特征的規格不一樣，不能夠放在一起比較。無量綱化可以解決這一問題。 3 特征選擇

Hadoop 自定義資料類型和自定義排序

統計學習筆記（2）——感覺機模型1. 感覺機模型2. 感覺機政策3. 感覺機算法

主成成分分析-PCA

mahout 推薦系統示例

資料特征預處理應用：HR資料特征預處理

Python中使用libsvm

L0、L1與L2範數

斯坦福NG機器學習：K-means筆記K-means 聚類算法：

常用的機器學習&amp;資料挖掘知識(點)

繼續閱讀

常用的機器學習&資料挖掘知識(點)