Python的X[y==1, 0]
最近研究邏輯回歸,Iris花的經典示例,代碼就不全粘貼了,具體代碼參看“Iris花邏輯回歸與實作”
1 plt.plot(X[y==0, 0], X[y==0,1], "bs")
2 plt.plot(X[y==1, 0], X[y==1, 1], "g^")
X[y==0, 0]中的y==0是個什麼東東,為什麼可以占據X的第一個位置?
首先我們看一下X是個什麼?
1 from sklearn import datasets
2 iris = datasets.load_iris()
3
4 X = iris["data"][:, (2, 3)] # petal length, petal width
5 y = (iris["target"] == 2).astype(np.int)
6 print(X)
Output:
[[1.4 0.2]
[1.4 0.2]
...
[5.1 1.8]]
X是一個數組,數組的元素是一個二進制組。在解釋X[y==0, 0]之前,首先要明白X[:,:]左面:代表的是行範圍,右邊“:”代表的是列範圍,如果是冒号則代表全部,否則就像代碼中第四行那樣,指定一個範圍;那麼無論是“:”,還是指定一個範圍(類似于(2,3)),其實本質都是會被翻譯成一個true/false的一維一進制數組,每個元素都是代表數組對應位置的元素是否要出現。
比如,y==0,print之後其實是[True True False ...],那麼X[y==0, 0],就X的前三個元素而言,分别代表傳回(包含),傳回(包含),不傳回(不包含);與之類似對于“iris["data"][:, (2, 3)]”這個寫法,左邊的那個":"代表的行是[True,True, ... ,True],全是true;
那麼X[y==0, 0]中,第二個0代表什麼意思呢?y==1解決了行中那些傳回(那些為true的傳回),右邊的那個數字代表就是傳回那一列,0,代表傳回的是第一列,就是上面那個1,4,1.4...5.1;與之類似對于“iris["data"][:, (2, 3)]”這個寫法,代表列是要傳回第三列和第四列。
這裡看到在python裡面行列的處理模式是不一樣的,行的取舍是通過一個True/ False數組來實作的,列的取舍确實通過指定了那一列;這個其實從矩陣的角度能夠更好的了解。
concatenate
1 X_outliers=np.array([[3.4, 1.3], [3.2, 0.8]])
2 y_outliers=np.array([0, 0])
3
4 Xo1=np.concatenate([X, X_outliers[:1]], axis=0)
5 yo1=np.concatenate([y, y_outliers[:1]], axis=0)
6 Xo2=np.concatenate([X, X_outliers[1:]], axis=0)
7 yo2=np.concatenate([y, y_outliers[1:]], axis=0)
numpy裡面的concatenate的涵義是合并矩陣;axis=0代表是添加一行,axis=1則代表添加一列。以此為例:
pprint(X)顯示為:
u'X:'
array([[1.4, 0.2],
[1.4, 0.2],
...
[5.1, 1.8]])
pprint(Xo1)顯示為:
u'Xo1:'
[1.4, 0.2],
...
[5.1, 1.8],
[3.4, 1.3]])
這其實就是行添加了一行。
原生數組和reshape之後數組
X_test = np.linspace(1,5,5)
pprint (X_test)
X_tmp = X_test.reshape(-1, 1)
pprint(X_tmp)
輸出:
array([1., 2., 3., 4., 5.])
array([[1.], [2.], [3.], [4.], [5.]])
python數組常見操作:
Python原生是沒有數組的,[]這種類型在python裡面叫List;二維數組可以通過lsti[i][i]來進行索引(array是通過[i, j]來進行索引),支援通過":"來進行範圍索引,但是像前面描述的,隻是支援一個次元的索引,例如[:5][1:](對于array而言可以通過[:,:]來進行索引)。
如果是數組的話,還是使用numpy裡面的array;
numpy裡面提供的是array以及可以通過[x1:x2,y1:y2]模式來索引矩陣形式;同時可以通過array.shape方式來擷取矩陣的行數/列數;同時可以通過reshape來進行行列重置;可以通過.T來進行“轉置”。
matrix是numpy的array的一個子集,同樣支援“:”模式的索引,以及shape[i]擷取行、列的數量;但是隻支援矩陣形式:二維數組形式。
matrix和numpy的乘法(*)模式不同,matrix是乘數的行*被乘數的列這種模式;array則是同位數的相乘。
互轉:
list轉array:np.array(list)
list轉matrix:np.mat(list)
array轉list:data.toList()
array和matrix互轉:np.asmatrix, np.asarray
array想要采用matrix的乘法:np.dot(array1, array2)
matrix想要同位數的乘法:np.multiply(mat1, mat2)
成員
# 屬性
ndarray.shape: 多維陣列的大小(形狀)
ndarray.ndim: 多維陣列的維度
ndarray.itemsize: 陣列當中元素的大小(佔幾個 byte)
ndarray.nbytes: 整個陣列所有元素的大小總計
ndarray.T: 轉置矩陣,隻能在維度 <= 2 的時候使用,與 self.transpose() 效果相同
ndarray.flat: 把陣列扁平化輸出
# 格式轉換
ndarray.item: 類似 List 的 Index,把 Array 扁平化取得某 Index 的 value
ndarray.tolist: 把 NumPy.ndarray 輸出成 Python 原生 List 型態
ndarray.itemset: 把 ndarray 中的某個值(純量)改掉
# 次元操作
ndarray.reshape(shape): 把同樣的資料以不同的 shape 輸出(array 的 total size 要相同)
ndarray.resize(shape): 重新定義陣列的大小
ndarray.flatten(): 把多維陣列收合成一維陣列(扁平化&Copy)
ndarray.ravel(): 回傳扁平化的陣列(無 Copy)
# 項目選擇與操作
ndarray.take(indices): 根據輸入索引值來得到指定陣列
ndarray.put(indices, values): 根據索引值改變陣列 value
ndarray.repeat(times): 重複陣列的值(類似擴張)
ndarray.sort(): 把陣列當中的元素排序
ndarray.sum(): 加總多維陣列(可指定加總的維度根據)
---------------------