天天看點

pandas和matplotlib和

進階資料操作工具,将資料存儲為dataframe的資料結構。

pandas和matplotlib和
pandas和matplotlib和

注:将brics.csv檔案放到d:/documents下。

 列的擷取

pandas和matplotlib和

添加咧

pandas和matplotlib和
pandas和matplotlib和

行的擷取

pandas和matplotlib和

元素的擷取

pandas和matplotlib和

資料可視化

1.折線圖

pandas和matplotlib和
pandas和matplotlib和

2.散點圖

pandas和matplotlib和
pandas和matplotlib和

3.直方圖

pandas和matplotlib和
pandas和matplotlib和

4.軸的标簽

pandas和matplotlib和
pandas和matplotlib和

5.标題

pandas和matplotlib和
pandas和matplotlib和

6.刻度

pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和

7.加入曆史資料

pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和

spark1.6.2.2.3

pca

算法介紹:

        主成分分析是一種統計學方法,它使用正交轉換從一系列可能相關的變量中提取線性無關變量集,提取出的變量集中的元素稱為主成分。使用pca方法可以對變量集合進行降維。下面的示例将會展示如何将5維特征向量轉換為3維主成分向量。

scala代碼

pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和

由于是spark1.6.2。api有些不能用。

onehotencoder

獨熱編碼将标簽名額映射為二值向量,其中最多一個單值。這種編碼被用于将種類特征使用到需要連續特征的算法,如邏輯回歸等。

pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和

python list

pandas和matplotlib和

numpy array

pandas和matplotlib和

numpy數組:元素隻有一種類型,否則會轉換成字元串。

pandas和matplotlib和

不同的類型,不同的行為

pandas和matplotlib和

numpy的構造子集

pandas和matplotlib和

二維numpy數組

pandas和matplotlib和

ndarray=n維數組

pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和
pandas和matplotlib和

繼續閱讀