天天看點

圖解 Numpy,原來資料操作這麼簡單!

圖解 Numpy,原來資料操作這麼簡單!

作者|Jay Alammar Blog

來源|機器之心

在Python資料分析領域,Numpy 這個庫是少不了的,可是對于一些矩陣的操作,了解起來太抽象了。最近看到一篇文章,它以可視化的形式呈現了 Numpy 中矩陣操作的一些原理,推薦給大家一看。

本文用可視化的方式介紹了 NumPy 的功能和使用示例。
圖解 Numpy,原來資料操作這麼簡單!

NumPy 軟體包是 Python 生态系統中資料分析、機器學習和科學計算的主力軍。它極大地簡化了向量和矩陣的操作處理。Python 的一些主要軟體包(如 scikit-learn、SciPy、pandas 和 tensorflow)都以 NumPy 作為其架構的基礎部分。除了能對數值資料進行切片(slice)和切塊(dice)之外,使用 NumPy 還能為處理和調試上述庫中的進階執行個體帶來極大便利。

本文将介紹使用 NumPy 的一些主要方法,以及在将資料送入機器學習模型之前,它如何表示不同類型的資料(表格、圖像、文本等)。

import numpy as np      

建立數組

我們可以通過傳遞一個 python 清單并使用 np.array()來建立 NumPy 數組(極大可能是多元數組)。在本例中,python 建立的數組如下圖右所示:

圖解 Numpy,原來資料操作這麼簡單!

通常我們希望 NumPy 能初始化數組的值,為此 NumPy 提供了 ones()、zeros() 和 random.random() 等方法。我們隻需傳遞希望 NumPy 生成的元素數量即可:

一旦建立了數組,我們就可以盡情對它們進行操作。

數組運算

讓我們建立兩個 NumPy 數組來展示數組運算功能。我們将下圖兩個數組稱為 data 和 ones:

将它們按位置相加(即每行對應相加),直接輸入 data + ones 即可:

當我開始學習這些工具時,我發現這樣的抽象讓我不必在循環中編寫類似計算。此類抽象可以使我在更高層面上思考問題。

除了「加」,我們還可以進行如下操作:

通常情況下,我們希望數組和單個數字之間也可以進行運算操作(即向量和标量之間的運算)。比如說,我們的數組表示以英裡為機關的距離,我們希望将其機關轉換為千米。隻需輸入 data * 1.6 即可:

看到 NumPy 是如何了解這個運算的了嗎?這個概念叫做廣播機制(broadcasting),它非常有用。

索引

我們可以我們像對 python 清單進行切片一樣,對 NumPy 數組進行任意的索引和切片:

聚合

NumPy 還提供聚合功能:

除了 min、max 和 sum 之外,你還可以使用 mean 得到平均值,使用 prod 得到所有元素的乘積,使用 std 得到标準差等等。

更多元度

上述的例子都在一個次元上處理向量。NumPy 之美的關鍵在于,它能夠将上述所有方法應用到任意數量的次元。

建立矩陣

我們可以傳遞下列形狀的 python 清單,使 NumPy 建立一個矩陣來表示它:

np.array([[1,2],[3,4]])      

我們也可以使用上面提到的方法(ones()、zeros() 和 random.random()),隻要寫入一個描述我們建立的矩陣維數的元組即可:

矩陣運算

如果兩個矩陣大小相同,我們可以使用算術運算符(+-*/)對矩陣進行加和乘。NumPy 将它們視為 position-wise 運算:

我們也可以對不同大小的兩個矩陣執行此類算術運算,但前提是某一個次元為 1(如矩陣隻有一列或一行),在這種情況下,NumPy 使用廣播規則執行算術運算:

點乘

算術運算和矩陣運算的一個關鍵差別是矩陣乘法使用點乘。NumPy 為每個矩陣賦予 dot() 方法,我們可以用它與其他矩陣執行點乘操作:

我在上圖的右下角添加了矩陣維數,來強調這兩個矩陣的臨近邊必須有相同的維數。你可以把上述運算視為:

矩陣索引

當我們處理矩陣時,索引和切片操作變得更加有用:

矩陣聚合

我們可以像聚合向量一樣聚合矩陣:

我們不僅可以聚合矩陣中的所有值,還可以使用 axis 參數執行跨行或跨列聚合:

轉置和重塑

處理矩陣時的一個常見需求是旋轉矩陣。當需要對兩個矩陣執行點乘運算并對齊它們共享的次元時,通常需要進行轉置。NumPy 數組有一個友善的方法 T 來求得矩陣轉置:

在更進階的執行個體中,你可能需要變換特定矩陣的次元。在機器學習應用中,經常會這樣:某個模型對輸入形狀的要求與你的資料集不同。在這些情況下,NumPy 的 reshape() 方法就可以發揮作用了。隻需将矩陣所需的新次元指派給它即可。可以為次元指派-1,NumPy 可以根據你的矩陣推斷出正确的次元:

再多元度

NumPy 可以在任意次元實作上述提到的所有内容。其中心資料結構被叫作 ndarray(N 維數組)不是沒道理的。

在很多情況下,處理一個新的次元隻需在 NumPy 函數的參數中添加一個逗号:

實際用法

以下是 NumPy 可實作的有用功能的執行個體示範。

公式

實作可用于矩陣和向量的數學公式是 NumPy 的關鍵用例。這就是 NumPy 是 python 社群寵兒的原因。例如均方差公式,它是監督機器學習模型處理回歸問題的核心:

在 NumPy 中實作該公式很容易:

這樣做的好處在于,NumPy 并不關心 predictions 和 labels 包含一個值還是一千個值(隻要它們大小相同)。我們可以通過一個示例依次執行上面代碼行中的四個操作:

預測和标簽向量都包含三個值,也就是說 n 的值為 3。減法後,得到的值如下:

然後将向量平方得到:

現在對這些值求和:

得到的結果即為該預測的誤內插補點和模型品質評分。

資料表示

考慮所有需要處理和構模組化型所需的資料類型(電子表格、圖像、音頻等),其中很多都适合在 n 維數組中表示:

表格和電子表格

電子表格或值表是二維矩陣。電子表格中的每個工作表都可以是它自己的變量。python 中最流行的抽象是 pandas 資料幀,它實際上使用了 NumPy 并在其之上建構。

音頻和時間序列

音頻檔案是樣本的一維數組。每個樣本都是一個數字,代表音頻信号的一小部分。CD 品質的音頻每秒包含 44,100 個樣本,每個樣本是-65535 到 65536 之間的整數。這意味着如果你有一個 10 秒的 CD 品質 WAVE 檔案,你可以将它加載到長度為 10 * 44,100 = 441,000 的 NumPy 數組中。如果想要提取音頻的第一秒,隻需将檔案加載到 audio 的 NumPy 數組中,然後擷取 audio[:44100]。

以下是一段音頻檔案:

時間序列資料也是如此(如股票價格随時間變化)。

圖像

圖像是尺寸(高度 x 寬度)的像素矩陣。

如果圖像是黑白(即灰階)的,則每個像素都可以用單個數字表示(通常在 0(黑色)和 255(白色)之間)。想要裁剪圖像左上角 10 x 10 的像素嗎?在 NumPy 寫入

即可。

下圖是一個圖像檔案的片段:

圖解 Numpy,原來資料操作這麼簡單!

如果圖像是彩色的,則每個像素由三個數字表示——紅色、綠色和藍色。在這種情況下,我們需要一個三維數組(因為每個單元格隻能包含一個數字)。是以彩色圖像由尺寸為(高 x 寬 x3)的 ndarray 表示:

圖解 Numpy,原來資料操作這麼簡單!

語言

如果我們處理文本,情況就不同了。文本的數字表示需要一個建構詞彙表的步驟(模型知道的唯一字清單)和嵌入步驟。讓我們看看用數字表示以下文字的步驟:

模型需要先檢視大量文本,再用數字表示這位詩人的話語。我們可以讓它處理一個小資料集,并用它來建構一個詞彙表(71,290 個單詞):

圖解 Numpy,原來資料操作這麼簡單!

這個句子可以被分成一個 token 數組(基于通用規則的單詞或單詞的一部分):

圖解 Numpy,原來資料操作這麼簡單!

然後我們用詞彙表中的 ID 替換每個單詞:

圖解 Numpy,原來資料操作這麼簡單!

這些 ID 仍然沒有為模型提供太多資訊價值。是以,在将這一組單詞輸入到模型之前,我們需要用嵌入替換 token/單詞(在本例中為 50 維 word2vec 嵌入):

圖解 Numpy,原來資料操作這麼簡單!

可以看到,該 NumPy 數組的次元為 [embedding_dimension x sequence_length]。出于性能原因,深度學習模型傾向于保留批大小的第一維(因為如果并行訓練多個示例,模型訓練速度會加快)。在這種情況下,reshape() 變得非常有用。如像 BERT 這樣的模型期望的輸入形式是:[batch_size,sequence_length,embedding_size]。

圖解 Numpy,原來資料操作這麼簡單!