R語言資料挖掘資料
一、分類
1)決策樹分類
http://blog.sina.com.cn/s/blog_6fb7db430100veen.html,包含理論知識與rpart包執行個體。
http://blog.csdn.net/yujunbeta/article/details/14986219,包含算法的自行實作,以及RWeka包的C4.5算法、tree包的CART算法。
2)神經網絡
http://blog.csdn.net/yujunbeta/article/details/17201103,重點關注BP神經網絡算法的自行實作(權值調整改進為動量因子)和nnet包的手寫數字識别案例;手寫數字案例的資料下載下傳位址是 http://pan.baidu.com/s/1DuXFi。
3)邏輯回歸
http://eml.berkeley.edu/~train/software.html
離散選擇模型大師Kenneth Train的個人首頁,提供了matlab、R和GAUSS的源代碼。個人推薦R代碼中的RSGHB包,采用的估計方法是Hierarchical Bayes算法,相比傳統的Maximum Simulated Likelihood方法而言能夠有效地規避最大化可能帶來singular問題。RSGHB包讓使用者自定義likelihood函數,是以非常靈活,可用于估計邏輯回歸、Multinomial Logit、Nested Logit、Mixed Logit、Latent Class、Ordered Logit/Probit等模型。
主要函數doHB(likelihood, choicedata, control): likelihood為使用者自定義函數,用于計算每個observation的機率,計算時使用的資料格式随意,可以是一個observation一行,也可以是一個alternative一行,使用者隻要保證能得到正确的likelihood即可;choicedata,需要提供兩個資訊,一個是observationID,可以是複合型的,即使用者ID+choice situation,另一個是該observation對應的選擇結果;control是MCMC過程的控制參數,包括模型名稱、warm up iteration次數、收斂後sampling次數等。
關于離散選擇模型的理論知識,強力推薦Kenneth Train的書籍Discrete Choice Methods with Simulation,在這個連結可以免費下載下傳http://eml.berkeley.edu/books/choice2.html
http://blog.csdn.net/yujunbeta/article/details/17926443
對邏輯回歸的原理進行了比較簡單的介紹,包含R語言mlogit包和nnet包中multinorm的應用。
http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=DeepLearning
深度學習大師Andrew Ng的課程,講述了線性回歸、邏輯回歸和正則項的基本知識,對梯度下降法、牛頓法的講解深入淺出,并提供了matlab源代碼。R代碼的實作版本請參考本部落格的相應文章。
http://blog.csdn.net/itplus/article/details/21896619
系統地介紹了經典的極大似然估計方法,包括牛頓法、拟牛頓法(DFP、BFGS)、L-BFGS算法。
http://www.csdn.net/article/2014-02-13/2818400-2014-02-13;http://www.cnblogs.com/kobedeshow/p/3603148.html?utm_source=tuicool
應用Map-Reduce并行化邏輯回歸