天天看點

python分位數回歸模型_Python 和 R 資料分析/挖掘工具互查

如果大家已經熟悉python和R的子產品/包載入方式,那下面的表查找起來相對友善。python在下表中以子產品.的方式引用,部分子產品并非原生子產品,請使用

pip install *

安裝;同理,為了友善索引,R中也以::表示了函數以及函數所在包的名字,如果不含::表示為R的預設包中就有,如含::,請使用

install.packages("*")

安裝。

連接配接器與io

資料庫

類别PythonR

MySQL

mysql-connector-python(官方)

RMySQL

Oracle

cx_Oracle

ROracle

Redis

redis

rredis

MongoDB

pymongo

RMongo, rmongodb

neo4j

py2neo

RNeo4j

Cassandra

cassandra-driver

RJDBC

ODBC

pyodbc

RODBC

JDBC

未知[Jython Only]

RJDBC

IO類

類别PythonR

excel

xlsxWriter, pandas.(from/to)_excel, openpyxl

openxlsx::read.xlsx(2), xlsx::read.xlsx(2)

csv

csv.writer

read.csv(2), read.table

json

json

jsonlite

圖檔

PIL

jpeg, png, tiff, bmp

統計類

描述性統計

類别PythonR

描述性統計彙總

scipy.stats.descirbe

summary

均值

scipy.stats.gmean(幾何平均數), scipy.stats.hmean(調和平均數), numpy.mean, numpy.nanmean, pandas.Series.mean

mean

中位數

numpy.median, numpy.nanmediam, pandas.Series.median

median

衆數

scipy.stats.mode, pandas.Series.mode

未知

分位數

numpy.percentile, numpy.nanpercentile, pandas.Series.quantile

quantile

經驗累積函數(ECDF)

statsmodels.tools.ECDF

ecdf

标準差

scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std

sd

方差

numpy.var, pandas.Series.var

var

變異系數

scipy.stats.variation

未知

協方差

numpy.cov, pandas.Series.cov

cov

(Pearson)相關系數

scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr

cor

峰度

scipy.stats.kurtosis, pandas.Series.kurt

e1071::kurtosis

偏度

scipy.stats.skew, pandas.Series.skew

e1071::skewness

直方圖

numpy.histogram, numpy.histogram2d, numpy.histogramdd

未知

回歸(包括統計和機器學習)

類别PythonR

普通最小二乘法回歸(ols)

statsmodels.ols, sklearn.linear_model.LinearRegression

lm,

廣義線性回歸(gls)

statsmodels.gls

nlme::gls, MASS::gls

分位數回歸(Quantile Regress)

statsmodels.QuantReg

quantreg::rq

嶺回歸

sklearn.linear_model.Ridge

MASS::lm.ridge, ridge::linearRidge

LASSO

sklearn.linear_model.Lasso

lars::lars

最小角回歸

sklearn.linear_modle.LassoLars

lars::lars

穩健回歸

statsmodels.RLM

MASS::rlm

假設檢驗

類别PythonR

t檢驗

statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel

t.test

ks檢驗(檢驗分布)

scipy.stats.kstest, scipy.stats.kstest_2samp

ks.test

wilcoxon(非參檢驗,差異檢驗)

scipy.stats.wilcoxon, scipy.stats.mannwhitneyu

wilcox.test

Shapiro-Wilk正态性檢驗

scipy.stats.shapiro

shapiro.test

Pearson相關系數檢驗

scipy.stats.pearsonr

cor.test

時間序列

類别PythonR

AR

statsmodels.ar_model.AR

ar

ARIMA

statsmodels.arima_model.arima

arima

VAR

statsmodels.var_model.var

未知

python還可參見PyFlux.

生存分析

類别PythonR

PH回歸

statsmodels.formula.api.phreg

未知

專門分析的子產品:

Python: Lifelines

機器學習類

回歸

參見統計類

分類器

LDA、QDA

類别PythonR

LDA

sklearn.discriminant_analysis.LinearDiscriminantAnalysis

MASS::lda

QDA

sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis

MASS::qda

SVM(支援向量機)

類别PythonR

支援向量分類器(SVC)

sklearn.svm.SVC

e1071::svm

非支援向量分類器(nonSVC)

sklearn.svm.NuSVC

未知

線性支援向量分類器(Lenear SVC)

sklearn.svm.LinearSVC

未知

基于臨近

類别PythonR

k-臨近分類器

sklearn.neighbors.KNeighborsClassifier

未知

半徑臨近分類器

sklearn.neighbors.RadiusNeighborsClassifier

未知

臨近重心分類器(Nearest Centroid Classifier)

sklearn.neighbors.NearestCentroid

未知

貝葉斯

類别PythonR

樸素貝葉斯

sklearn.naive_bayes.GaussianNB

e1071::naiveBayes

多元貝葉斯(Multinomial Naive Bayes)

sklearn.naive_bayes.MultinomialNB

未知

伯努利貝葉斯(Bernoulli Naive Bayes)

sklearn.naive_bayes.BernoulliNB

未知

決策樹

類别PythonR

決策樹分類器

sklearn.tree.DecisionTreeClassifier

tree::tree, party::ctree

決策樹回歸器

sklearn.tree.DecisionTreeRegressor

tree::tree, party::tree

Assemble方法

類别子類别PythonR

Bagging

随機森林分類器

sklearn.ensemble.RandomForestClassifier

randomForest::randomForest, party::cforest

Bagging

随機森林回歸器

sklearn.ensemble.RandomForestRegressor

randomForest::randomForest, party::cforest

Boosting

Gradient Boosting

xgboost子產品

xgboost包

Boosting

AdaBoost

sklearn.ensemble.AdaBoostClassifier

adabag、fastAdaboost、ada

Stacking

未知

未知

未知

聚類

類别PythonR

kmeans

scipy.cluster.kmeans.kmeans

kmeans::kmeans

分層聚類

scipy.cluster.hierarchy.fcluster

(stats::)hclust

包聚類(Bagged Cluster)

未知

e1071::bclust

DBSCAN

sklearn.cluster.DBSCAN

dbscan::dbsan

Birch

sklearn.cluster.Birch

未知

K-Medoids聚類

pyclust.KMedoids(可靠性未知)

cluster.pam

關聯規則

類别PythonR

apriori算法

apriori(可靠性未知,不支援py3), PyFIM(可靠性未知,不可用pip安裝)

arules::apriori

FP-Growth算法

fp-growth(可靠性未知,不支援py3), PyFIM(可靠性未知,不可用pip安裝)

未知

神經網絡

類别PythonR

神經網絡

neurolab.net, keras.*

nnet::nnet, nueralnet::nueralnet

深度學習

keras.*

不可靠包居多以及未知

當然,theano子產品值得一提,但本質theano包的設計并非在神經網絡,是以不歸于此類。

機率圖模型

python: PyMC3

文本、NLP

基本操作

類别PythonR

tokenize

nltk.tokenize(英), jieba.tokenize(中)

tau::tokenize

stem

nltk.stem

RTextTools::wordStem, SnowballC::wordStem

stopwords

stop_words.get_stop_words

tm::stopwords, qdap::stopwords

中文分詞

jieba.cut, smallseg, Yaha, finalseg, genius

jiebaR

TFIDF

gensim.models.TfidfModel

未知

主題模型

類别PythonR

LDA

lda.LDA, gensim.models.ldamodel.LdaModel

topicmodels::LDA

LSI

gensim.models.lsiModel.LsiModel

未知

RP

gensim.models.rpmodel.RpModel

未知

HDP

gensim.models.hdpmodel.HdpModel

未知

值得留意的是python的新第三方子產品,spaCy

與其他分析/可視化/挖掘/報表工具的互動

類别PythonR

weka

python-weka-wrapper

RWeka

Tableau

tableausdk

Rserve(實際是R的服務包)

轉載于:https://segmentfault.com/a/1190000005041649