天天看點

機器學習實戰筆記(Python實作)-01-機器學習實戰機器學習實戰

機器學習實戰

本部落格來自于CSDN:http://blog.csdn.net/niuwei22007/article/details/49663977

本系列部落格源自于讀《機器學習實戰—中文版》這本書的學習筆記,用于日後翻閱、檢視資料用。

機器學習算法越來越受到人們的青睐,是由于這些算法在一定程度上可以達到智能的目的,比如人臉識别、圖像文本分類等在一定程度上可以代替人工繁瑣複雜的操作。《機器學習實戰》這本書寫的非常好,它并沒有從理論的角度講解機器學習算法背後的數學原理,而是通過“原理簡述+問題執行個體+實際代碼+運作效果”來一一介紹每個算法。我們也都知道,隻有用代碼真正實作了某個算法,才能真正了解那個算法的精髓。而這本書就是以實際代碼實作為主,逐漸讓我們加深對算法的了解。

這本書的算法實作完全基于Python語言。Python的優點我就不介紹了,其中最主要的一點是有第三方的科學計算庫,可以很友善的實作算法的公式計算。

這本書的主要介紹的算法是源自于一篇ICDM會議上的論文----“資料挖掘十大算法”。這篇論文依據知識發現和資料挖掘國際會議獲獎者的問卷調查結果統計除了排名前十的資料挖掘算法。論文選出的十大機器學習算法包括:C4.5決策樹、Kmeans、支援向量機(SVM)、Apriori、最大期望算法(EM)、PageRank算法、AdaBoost算法、k-近鄰算法(kNN)、樸素貝葉斯算法(NB)和分類回歸樹算法(CART)。這本書除了PageRank算法(相關著作太多)和EM算法(涉及太多數學知識),其餘的算法都介紹了。

機器學習算法分為有監督學習和無監督學習。這本書前兩部分介紹的是有監督學習,第三部分介紹的是無監督學習。有監督學習有兩種功能,一種是分類(本書第一部分介紹),一種是回歸預測(本書第二部分介紹)。這樣就對這本書的思路有了一個總體把握。

如果自身對機器學習非常了解的話,我相信你不會讀到這裡;有一定了解的話可以繼續看後續博文;如果剛剛接觸的話,可以自己百度谷歌一些機器學習的基礎知識。

閱讀這本書還需要了解Python語言以及Python中的NumPy科學計算庫。

安裝帶有NumPy的python,可以參考這裡:把教程中的Anaconda安裝好就可以了。

NumPy基礎操作教程可以參考這裡:(轉)Numpy教程。

希望本系列博文能幫助一些人,最主要的還是作為自己的學習筆記!