天天看點

淺層神經網絡

1 神經網絡

1.1 淺層神經網絡

淺層神經網絡

如上所示,首先你需要輸入特征x,參數w和b,通過這些你就可以計算出z,接下來使用z就可以計算出a,我們将的符号換為表示輸出y^ ⟹ a = σ(z),然後可以計算出 loss function l(a, y)

 1.2 神經網絡的表示(neural network representation)

淺層神經網絡

我們有輸入特征x1、x2、x3,它們被豎直地堆疊起來,這叫做神經網絡的輸入層,它包含了神經網絡的輸入;然後這裡有另外一層我們稱之為隐藏層即圖中間的4個結點,在一個神經網絡中,當你使用監督學習訓練它的時候,訓練集包含了輸入x也包含了目标輸出y,是以術語隐藏層的含義是在訓練集中,這些中間結點的準确值我們是不知道到的,也就是說你看不見它們在訓練集中應具有的值,你能看見輸入的值,你也能看見輸出的值,但是隐藏層中的東西,在訓練集中你是無法看到的;最後一層隻由一個結點構成,而這個隻有一個結點的層被稱為輸出層,它負責産生預測值。

符号:使用a[0]可以用來表示輸入特征,a表示激活的意思,它意味着網絡中不同層的值會傳遞到它們後面的層中,輸入層将x傳遞給隐藏層,是以我們将輸入層的激活值稱為a[0];下一層即隐藏層也同樣會産生一些激活值,那麼我将其記作a[1],是以具體地,這裡的第一個單元或結點我們将其表示為a[1]1,第二個結點的值我們記a[1]2以此類推,輸出層将産生某個數值a,它隻是一個單獨的實數,是以的y^值将取為a[2].

淺層神經網絡

最後,我們要看到的隐藏層以及最後的輸出層是帶有參數的,這裡的隐藏層将擁有兩個參數w和b,我将給它們加上上标 (w[1],b[1]),表示這些參數是和第一層這個隐藏層有關系的,w是一個 4x3 的矩陣,而b是一個 4x1 的向量,第一個數字 4 源自于我們有四個結點或隐藏層單元,然後數字 3 源自于這裡有三個輸入特征,相似的輸出層也有一些與之關聯的參數w[2]以及b[2]。從維數上來看,它們的規模分别是 1x4 以及 1x1,1x4 是因為隐藏層有四個隐藏層單元而輸出層隻有一個單元。

1.3 計算一個神經網絡的輸出(computing a neural network's output)

隻有一個隐藏層的簡單兩層神經網絡結構(輸入不算層數),其中,x表示輸入特征,a表示每個神經元的輸出,w表示特征的權重,上标表示神經網絡的層數(隐藏層為 1),下标表示該層的第幾個神經元.

淺層神經網絡

 神經網絡的計算:

邏輯回歸的計算有兩個步驟,首先你按步驟計算出z,然後在第二步中你以 sigmoid 函數為激活函數計算z(得出a),一個神經網絡隻是這樣子做了好多次重複計算.

淺層神經網絡

對于上面兩層的神經網絡,我們從隐藏層的第一個神經元開始計算,小圓圈代表了計算的兩個步驟:

淺層神經網絡

隐藏層的第二個以及後面兩個神經元的計算過程一樣,隻是注意符号表示不同,最終分别得到a[1]2、a[1]3、a[1]4,詳細結果見下:

   向量化計算:  z[n]=w[n]x+b[n]

                      a[n]=σ(z[n])

淺層神經網絡
淺層神經網絡
淺層神經網絡

   多樣本向量化:z[n](i)=w[n](i)x+b[n](i)      #i從1到m

                      a[n](i)=σ(z[n](i))

淺層神經網絡
淺層神經網絡
淺層神經網絡
淺層神經網絡

從小寫的向量x到這個大寫的矩陣x,隻是通過組合x向量在矩陣的各列中,z[1](1),z[1](2)等等都是z[1](m)的列向量,将所有m都組合在各列中,就的到矩陣z[1],a[1](1),a[1](2),……,a[1](m)将其組合在矩陣各列中,如同從向量x到矩陣x,以及從向量z到矩陣z一樣,就能得到矩陣a[1],對于z[2]和a[2],也是這樣得到.

作者:zhang-x​,轉載請注明原文連結

繼續閱讀