NLP——資料的batching方法

2023-07-02 15:40:39

在文本資料中，每個句子的長度不同，常使用填充的操作将句子長度補齊。然而，在自然語言進行中，句子并非随機選取，而是在上下文之間有關聯的内容，我們必須将前面的句子的資訊傳遞到後面的句子。如果模型沒有大小限制，顯然最理想的情況就是将整個文檔前後連接配接起來作為一個句子來訓練(如下圖所示，有若幹個序列，每個序列代表一個句子，每個句子中包含經過預處理的相應單詞的編碼)。

NLP——資料的batching方法

但是現實根本無法實作，由于文本中通常會包含大量的詞彙，是以這種情況必然會導緻計算圖過大，另外序列過長還可能造成訓練中梯度爆炸的問題(梯度爆炸)。為此，我們可以采用并行處理句子的方法，每一次計算可以對多個句子進行并行處理。解決方案是，先将所有的句子即序列羅列成列向量

NLP——資料的batching方法

之後再從中切分出若幹個batch大小的資料集(程式中為data,這裡隻畫出前幾個)

NLP——資料的batching方法

每次訓練需要處理的句子個數和句子中包含的單詞數量可以由使用者自由設定(即一個batch的行數和列數) 同時，我們還需從每個句子的第二個單詞起按照同樣的batch大小進行切分(程式中為label)，每個label中包含着對應data中所有句子的需要預測的下一個單詞。該方法叫做batching方法

import codecs
import numpy as np

output_path="train.txt"  #語句中相應單詞對應的編碼檔案
TRAIN_BATCH_SIZE = 20   #一個batch的行數
TRAIN_NUM_STEP = 35     #一個batch的列數

def read_data(file_path):
    with codecs.open(file_path, 'r', 'utf-8') as fin:
        id_string = ' '.join([line.strip() for line in fin])
    id_list = [int(w) for w in id_string.split()]
    return id_list

def make_batches(id_list, batch_size, num_step):
    num_batches = len(id_list) // (batch_size * num_step)  #擷取batch的大小
    data = np.array(id_list[:num_batches * batch_size * num_step])
    data = np.reshape(data, [batch_size, num_batches * num_step])
    data_batches = np.split(data, num_batches, axis=1)

    label = np.array(id_list[1:num_batches * batch_size * num_step + 1])
    label = np.reshape(label, [batch_size, num_batches * num_step])
    label_batches = np.split(label, num_batches, axis=1)
    return list(zip(data_batches, label_batches))

def main():
    train_batches = make_batches(read_data(output_path), TRAIN_BATCH_SIZE, TRAIN_NUM_STEP)
    # 在這裡插入模型訓練代碼

if __name__== "__main__":
    main()

NLP——資料的batching方法

繼續閱讀

seq2sqe與attenton實作聊天機器人

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

NLP︱進階詞向量表達（一）——GloVe（理論、相關測評結果、R&python實作、相關應用）一、理論簡述二、測評三、Glove實作&R&python四、相關應用

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

更别緻的詞向量模型(一)：simpler glove

glove_python安裝（避免編譯錯誤）

python 分析qq聊天記錄

[一起學BERT]（一）：BERT模型的原理基礎Self-Attention機制理論Multi-head Self-Attention注意力機制位置編碼Transformer理論BERT理論

ELMO BERT GPT

BERT、Elmo、GPT一、發展曆史二、bert三、ERNIE四、GPT—transformer的decoder

anaconda中科大鏡像

NLP從入門到放棄_IBM Model1IBM Model1

人工智能如何有效地運用于自然語言處理

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合