天天看點

Python中的數組和list

Python的X[y==1, 0]

最近研究邏輯回歸,Iris花的經典示例,代碼就不全粘貼了,具體代碼參看“Iris花邏輯回歸與實作”

1 plt.plot(X[y==0, 0], X[y==0,1], "bs")
2 plt.plot(X[y==1, 0], X[y==1, 1], "g^")      

X[y==0, 0]中的y==0是個什麼東東,為什麼可以占據X的第一個位置?

首先我們看一下X是個什麼?

1 from sklearn import datasets
2 iris = datasets.load_iris()
3 
4 X = iris["data"][:, (2, 3)] # petal length, petal width
5 y = (iris["target"] == 2).astype(np.int)
6 print(X)      

Output:

[[1.4 0.2]
 [1.4 0.2]
...      
[5.1 1.8]]      

  X是一個數組,數組的元素是一個二進制組。在解釋X[y==0, 0]之前,首先要明白X[:,:]左面:代表的是行範圍,右邊“:”代表的是列範圍,如果是冒号則代表全部,否則就像代碼中第四行那樣,指定一個範圍;那麼無論是“:”,還是指定一個範圍(類似于(2,3)),其實本質都是會被翻譯成一個true/false的一維一進制數組,每個元素都是代表數組對應位置的元素是否要出現。

  比如,y==0,print之後其實是[True True False ...],那麼X[y==0, 0],就X的前三個元素而言,分别代表傳回(包含),傳回(包含),不傳回(不包含);與之類似對于“iris["data"][:, (2, 3)]”這個寫法,左邊的那個":"代表的行是[True,True, ... ,True],全是true;

  那麼X[y==0, 0]中,第二個0代表什麼意思呢?y==1解決了行中那些傳回(那些為true的傳回),右邊的那個數字代表就是傳回那一列,0,代表傳回的是第一列,就是上面那個1,4,1.4...5.1;與之類似對于“iris["data"][:, (2, 3)]”這個寫法,代表列是要傳回第三列和第四列。

  這裡看到在python裡面行列的處理模式是不一樣的,行的取舍是通過一個True/ False數組來實作的,列的取舍确實通過指定了那一列;這個其實從矩陣的角度能夠更好的了解。

concatenate

1 X_outliers=np.array([[3.4, 1.3], [3.2, 0.8]])
2 y_outliers=np.array([0, 0])
3 
4 Xo1=np.concatenate([X, X_outliers[:1]], axis=0)
5 yo1=np.concatenate([y, y_outliers[:1]], axis=0)
6 Xo2=np.concatenate([X, X_outliers[1:]], axis=0)
7 yo2=np.concatenate([y, y_outliers[1:]], axis=0)      

 numpy裡面的concatenate的涵義是合并矩陣;axis=0代表是添加一行,axis=1則代表添加一列。以此為例:

pprint(X)顯示為:

u'X:'

array([[1.4, 0.2],

[1.4, 0.2],

...

[5.1, 1.8]])

pprint(Xo1)顯示為:

u'Xo1:' 

[1.4, 0.2],

...

[5.1, 1.8],

[3.4, 1.3]])

這其實就是行添加了一行。

原生數組和reshape之後數組

X_test = np.linspace(1,5,5)

pprint (X_test)

X_tmp = X_test.reshape(-1, 1)

pprint(X_tmp)

輸出:

array([1., 2., 3., 4., 5.])

array([[1.], [2.], [3.], [4.], [5.]])

 python數組常見操作:

Python原生是沒有數組的,[]這種類型在python裡面叫List;二維數組可以通過lsti[i][i]來進行索引(array是通過[i, j]來進行索引),支援通過":"來進行範圍索引,但是像前面描述的,隻是支援一個次元的索引,例如[:5][1:](對于array而言可以通過[:,:]來進行索引)。

如果是數組的話,還是使用numpy裡面的array;

numpy裡面提供的是array以及可以通過[x1:x2,y1:y2]模式來索引矩陣形式;同時可以通過array.shape方式來擷取矩陣的行數/列數;同時可以通過reshape來進行行列重置;可以通過.T來進行“轉置”。

matrix是numpy的array的一個子集,同樣支援“:”模式的索引,以及shape[i]擷取行、列的數量;但是隻支援矩陣形式:二維數組形式。

matrix和numpy的乘法(*)模式不同,matrix是乘數的行*被乘數的列這種模式;array則是同位數的相乘。

互轉:

list轉array:np.array(list)

list轉matrix:np.mat(list)

array轉list:data.toList()

array和matrix互轉:np.asmatrix, np.asarray

array想要采用matrix的乘法:np.dot(array1, array2)

matrix想要同位數的乘法:np.multiply(mat1, mat2)

成員

# 屬性

ndarray.shape: 多維陣列的大小(形狀)

ndarray.ndim: 多維陣列的維度

ndarray.itemsize: 陣列當中元素的大小(佔幾個 byte)

ndarray.nbytes: 整個陣列所有元素的大小總計

ndarray.T: 轉置矩陣,隻能在維度 <= 2 的時候使用,與 self.transpose() 效果相同

ndarray.flat: 把陣列扁平化輸出

# 格式轉換

ndarray.item: 類似 List 的 Index,把 Array 扁平化取得某 Index 的 value

ndarray.tolist: 把 NumPy.ndarray 輸出成 Python 原生 List 型態

ndarray.itemset: 把 ndarray 中的某個值(純量)改掉

# 次元操作

ndarray.reshape(shape): 把同樣的資料以不同的 shape 輸出(array 的 total size 要相同)

ndarray.resize(shape): 重新定義陣列的大小

ndarray.flatten(): 把多維陣列收合成一維陣列(扁平化&Copy)

ndarray.ravel(): 回傳扁平化的陣列(無 Copy)

# 項目選擇與操作

ndarray.take(indices): 根據輸入索引值來得到指定陣列

ndarray.put(indices, values): 根據索引值改變陣列 value

ndarray.repeat(times): 重複陣列的值(類似擴張)

ndarray.sort(): 把陣列當中的元素排序

ndarray.sum(): 加總多維陣列(可指定加總的維度根據)

---------------------