長短時記憶網絡(Long short term memory,LSTM)是一種循環神經網絡(Recurrent neural network,RNN)。與卷積神經網絡不同的是,循環神經網絡會對每一個時刻的輸入結合目前模型的狀态給出一個輸出。由于獨特的設計結構,LSTM适合于處理和預測時間序列中間隔和延遲非常長的重要事件。LSTM具有非常廣泛的應用,包括語音識别、文本分類、語言模型、自動對話、機器翻譯、圖像标注等領域。本文介紹LSTM的網絡結構和主要代碼。
1 RNN循環神經網絡
RNN循環神經網絡中的循環可以展開成一個個串聯的結構,如下圖所示。展開後類似于有一系列輸入x和一系列輸出h的串聯的普通神經網絡,上一層的神經網絡會傳遞資訊給下一層,這種串聯的結構非常适合時間序列資料的處理和分析。RNN展開後的每一個層級的神經網絡,其參數都是相同的。是以并不需要訓練成百上千層神經網絡的參數,隻需要訓練一層RNN的參數,這裡共享參數的思想和卷積網絡中權值共享的方式類似。
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAzNvwVZ2x2bzNXak9CX90TQNNkRrFlQKBTSvwFbslmZvwFMwQzLcVmepNHdu9mZvwFVywUNMZTY18CX052bm9CX90TQkxGeyIGca5mW0olMMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2LcRHelR3LcJzLctmch1mclRXY39TN2gDO0kTNzETMzgDM4EDMy8CX0Vmbu4GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.jpg)
RNN是一個序列到序列的模型,可以用下圖的展開結構來表示其網絡模型。
圖中,xt表示t時刻的輸入,ot表示t時刻的輸出,st表示t時刻的記憶。目前時刻的輸出是由記憶和目前時刻的輸入的。目前時刻的記憶可表示為:
,f是激活函數。RNN帶着目前時刻的記憶去預測目前時刻的輸出,對st乘一個權重矩陣V,運用softmax來預測,得到目前時刻的輸出:
。每個層級的網絡都共享參數U、V、W,可以降低計算量。
2 LSTM長短時記憶網絡結構
LSTM是一種擁有三個“門”結構的特殊網絡結構,依靠“門”結構讓資訊有選擇性地影響循環神經網絡中每個時刻的狀态。下面通過對一個隐藏層的分析來解釋“門”結構。
1)遺忘門。資料資訊是上一層資訊與現在的輸入資料資訊的權重之和,激活函數是Sigmoid,輸出0到1之間的值,直接控制了資訊傳遞的比例,如果為0表示不允許資訊傳遞,為1表示讓資訊全部通過。
2)輸入門。也有一個激活函數Sigmoid,決定了哪些資訊會被傳遞。
3)tanh激活層。用于建立隐藏層的候選值。
4) 最後記憶層。擷取隐藏層,是基于上一個隐藏層與現隐藏層的候選值,這兩個值通過與遺忘門和輸入門相乘,決定通過多少資訊。
5)輸出門。也有一個激活函數Sigmoid,決定輸出哪些資訊。
6)最後隐藏層。先經過一個激活函數,讓值控制在[-1,1]之間,防止梯度爆炸,然後再與輸出層相乘決定輸出哪部分資訊。
3 LSTM語言模型代碼
用LSTM來實作一個語言模型,參照論文《Recurrent Neural Network Regularization》的網絡結構編寫代碼。主要代碼如下:
1)首先定義語言模型的類class,Model。初始化函數__init__(),其中包含六個參數,學習率learning_rate,輸入資料的batch_size和num_steps,字典裡有多少個字num_words,用作embeding變量的第一個次元的确定和onehot編碼,編碼後的字向量的次元dim_embedding,有多少個RNN層rnn_layers,在這個模型裡,一個RNN層就是一個RNN Cell,各個Cell之間通過TensorFlow提供的多層RNNAPI(MultiRNNCell等)組織到一起。
class Model():
def __init__(self, learning_rate , batch_size, num_steps, num_words, dim_embedding, rnn_layers):
self.batch_size = batch_size
self.num_steps = num_steps
self.num_words = num_words
self.dim_embedding = dim_embedding
self.rnn_layers = rnn_layers
self.learning_rate = learning_rate
2)定義一個單個cell函數def get_a_cell (lstm_size, keep_prob), tf.nn.rnn_cell.BasicLSTMCell用來定義單個基本的LSTM單元,在lstm_cell之後用tf.nn.rnn_cell.DropoutWrapper接入一個Dropout層。
def get_a_cell(lstm_size, keep_prob):
lstm = tf.nn.rnn_cell.BasicLSTMCell(lstm_size)
drop = tf.nn.rnn_cell.DropoutWrapper(lstm, output_keep_prob=keep_prob)
return drop
3)通過tf.nn.rnn_cell.MultiRNNCell實作深層循環神經網絡中每一個時刻的前向傳播過程,其中rnn_layers表示層數,也就是需要經過多少個LSTM結構。構造完多層LSTM以後,通過zero_state對狀态進行初始化,再通過tf.nn.dynamic_rnn建立遞歸神經網絡。最後對outputs_tensor的内容用tf.concat串接到一起,并使用tf.reshape将其轉為一維向量。
with tf.variable_scope('rnn'):
cell = tf.nn.rnn_cell.MultiRNNCell(
[get_a_cell(self.dim_embedding, self.keep_prob) for _ in range(self.rnn_layers)])
self.state_tensor = cell.zero_state(self.batch_size, tf.float32)
outputs_tensor,final_state = tf.nn.dynamic_rnn(cell, data,initial_state=self.state_tensor)
self.outputs_state_tensor = final_state
seq_output = tf.concat(outputs_tensor, 1)
seq_output_final = tf.reshape(seq_output, [-1, self.dim_embedding])
4) 定義權重W和偏置b,使用tf.matmul将輸出seg_output乘上權重加上偏置得到logits,即網絡最後的輸出。
with tf.variable_scope('softmax'):
W = tf.get_variable('W',[self.dim_embedding,self.num_words])
b = tf.get_variable('b',[self.num_words])
logits = tf.matmul(seq_output_final, W) + b
5) 用one_hot編碼得到輸入資料的标簽對應的one_hot張量。
y_onehot = tf.one_hot(self.Y, self.num_words)
y_reshaped = tf.reshape(y_onehot, logits.get_shape())
6)用交叉熵計算loss,最後進行優化。
loss = tf.nn.softmax_cross_entropy_with_logits(labels = y_reshaped, logits = logits)
版權聲明:本文為部落客原創文章,轉載請注明出處。 https://blog.csdn.net/fxfviolet/article/details/82255352