Pandas/Numpy中axis參數的了解
一、官方解釋
axis的官方解釋:
軸用來為超過一維的數組定義的屬性,
二維資料擁有兩個軸:第0軸沿着行的垂直往下,第1軸沿着列的方向水準延伸。
注意⚠️:**axis的重點在于方向,而不是行和列。**官方對于0和1的解釋是軸,也就是坐标軸。而坐标軸是有方向的,是以千萬不要用行和列的思維去想axis,因為行和列是沒有方向的。
簡單記憶:axis=0代表跨行(down),而axis=1代表跨列(across),作為方法動作的副詞。
二、圖解
- 使用0值表示沿着每一列或行标簽\索引值向下執行方法
- 使用1值表示沿着每一行或者列标簽向向執行對應的方法
多元:
axis=i,表示沿第i個下标索引變化的方向操作
三、應用
1.三維數組求和
In [1]: import numpy as np
In [2]: a = np.array([[[1,1],[2,1],[3,1]],[[4,1],[5,1],[6,1]],[[7,1],[8,1],[9,1]]])
In [3]: a
Out[3]:
array([[[1, 1],
[2, 1],
[3, 1]],
[[4, 1],
[5, 1],
[6, 1]],
[[7, 1],
[8, 1],
[9, 1]]])
In [4]: a.shape
Out[4]: (3, 3, 2)
# 三維3x3x2 變 二維3x2
In [7]: np.sum(a,axis=0)
Out[7]:
array([[12, 3],
[15, 3],
[18, 3]])
# 三維3x3x2 變 二維3x2
In [6]: np.sum(a,axis=1)
Out[6]:
array([[ 6, 3],
[15, 3],
[24, 3]])
# 三維3x3x2 變 二維3x3
In [8]: np.sum(a,axis=2)
Out[8]:
array([[ 2, 3, 4],
[ 5, 6, 7],
[ 8, 9, 10]])
2.四維數組求和
# 四維數組 4x3x2x3
In [18]: data = np.random.randint(0,5,(4,3,2,3))
In [19]: data
Out[19]:
array([[[[3, 0, 3],
[0, 0, 0]],
[[3, 3, 1],
[3, 0, 3]],
[[1, 2, 3],
[0, 0, 0]]],
[[[0, 3, 2],
[1, 0, 4]],
[[4, 3, 4],
[0, 4, 0]],
[[4, 0, 4],
[4, 2, 2]]],
[[[3, 2, 3],
[2, 4, 4]],
[[2, 4, 3],
[1, 3, 0]],
[[4, 3, 1],
[2, 4, 3]]],
[[[0, 1, 3],
[2, 0, 4]],
[[1, 1, 1],
[4, 3, 3]],
[[2, 1, 4],
[3, 2, 2]]]])
# 三維數組 3x2x3
In [20]: data.sum(axis=0)
Out[20]:
array([[[ 6, 6, 11],
[ 5, 4, 12]],
[[10, 11, 9],
[ 8, 10, 6]],
[[11, 6, 12],
[ 9, 8, 7]]])
# 三維數組 4x2x3
In [21]: data.sum(axis=1)
Out[21]:
array([[[ 7, 5, 7],
[ 3, 0, 3]],
[[ 8, 6, 10],
[ 5, 6, 6]],
[[ 9, 9, 7],
[ 5, 11, 7]],
[[ 3, 3, 8],
[ 9, 5, 9]]])
# 三維數組 4x3x3
In [22]: data.sum(axis=2)
Out[22]:
array([[[3, 0, 3],
[6, 3, 4],
[1, 2, 3]],
[[1, 3, 64
[4, 7, 4],
[8, 2, 6]],
[[5, 6, 7],
[3, 7, 3],
[6, 7, 4]],
[[2, 1, 7],
[5, 4, 4],
[5, 3, 6]]])
# 三維數組 4x3x2
In [23]: data.sum(axis=3)
Out[23]:
array([[[ 6, 0],
[ 7, 6],
[ 6, 0]],
[[ 5, 5],
[11, 4],
[ 8, 8]],
[[ 8, 10],
[ 9, 4],
[ 8, 9]],
[[ 4, 6],
[ 3, 10],
[ 7, 7]]])
3.三維數組排序和乘積
(1)排序
>>> data = np.random.randint(0, 5, [3,2,3])
>>> data
array([[[4, 2, 0],
[0, 0, 4]],
[[2, 1, 1],
[1, 0, 2]],
[[3, 0, 4],
[0, 1, 3]]])
>>> np.sort(data) ## 預設對最大的axis進行排序,這裡即是axis=2
array([[[0, 2, 4],
[0, 0, 4]],
[[1, 1, 2],
[0, 1, 2]],
[[0, 3, 4],
[0, 1, 3]]])
>>> np.sort(data, axis=0) # 沿着第0維進行排序,原先的a000->a100->a200轉變為a100->a200->a000
array([[[2, 0, 0],
[0, 0, 2]],
[[3, 1, 1],
[0, 0, 3]],
[[4, 2, 4],
[1, 1, 4]]])
>>> np.sort(data, axis=1) # 沿着第1維進行排序
array([[[0, 0, 0],
[4, 2, 4]],
[[1, 0, 1],
[2, 1, 2]],
[[0, 0, 3],
[3, 1, 4]]])
>>> np.sort(data, axis=2) # 沿着第2維進行排序
array([[[0, 2, 4],
[0, 0, 4]],
[[1, 1, 2],
[0, 1, 2]],
[[0, 3, 4],
[0, 1, 3]]])
>>> np.sort(data, axis=None) # 對全部資料進行排序
array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 3, 3, 4, 4, 4])
(2)乘積
>>> np.prod([[1.,2.],[3.,4.]])
24.0
>>> np.prod([[1.,2.],[3.,4.]], axis=1)
array([ 2., 12.])
>>> np.prod([[1.,2.],[3.,4.]], axis=0)
array([ 3., 8.])