新書推薦 | 深度序列模型與自然語言處理——基于 TensorFlow 2 實踐

深度序列模型與自然語言處理——基于 TensorFlow 2 實踐

作者：阮翀

書号：9787302629610

定價：99元

出版時間：2023年5月

作者介紹

阮翀

北京大學計算語言研究所碩士，在國内外會議和期刊上發表過多篇自然語言處理相關論文。曾負責網易有道離線神經網絡機器翻譯子產品和 Kikatech 印度輸入法引擎算法研發工作，并撰寫相關專利。在知乎平台上回答深度學習和自然語言處理相關問題，多個回答獲得編輯推薦，上萬粉絲關注。

内容簡介

《深度序列模型與自然語言處理：基于TensorFlow2實踐》以自然語言和語音信号處理兩大應用領域為載體，詳細介紹深度學習中的各種常用序列模型。

在講述理論知識的同時輔以代碼實作和講解，幫助讀者深入掌握相關知識技能。

《深度序列模型與自然語言處理：基于TensorFlow2實踐》共12章，不僅涵蓋了詞向量、循環神經網絡、卷積神經網絡、Transformer 等基礎知識，還囊括

了注意力機制、序列到序列問題等進階專題，同時還包含其他書籍中較少涉及的預訓練語言模型、生成

對抗網絡、強化學習、流模型等前沿内容，以拓寬讀者視野。

《深度序列模型與自然語言處理：基于TensorFlow2實踐》既适合網際網路公司算法工程師等群體閱讀，又可以作為大學高年級或研究所學生級别的自然語言處

理和深度學習課程的參考教材。

本書目錄

第1章 深度學習與自然語言處理概述1
1.1 自然語言處理簡史 2
1.1.1 自然語言處理能做什麼 2
1.1.2 自然語言處理的發展史 4
1.2 深度學習的興起 6
1.2.1 從機器學習到深度學習 6
1.2.2 深度學習架構 16
1.2.3 TensorFlow 2程式樣例 19
第2章 詞向量的前世今生 21
2.1 文本預處理的流程 22
2.2 前深度學習時代的詞向量 23
2.2.1 獨熱向量 23
2.2.2 分布式表示 24
2.3 深度學習時代的詞向量 26
2.3.1 詞向量的分類 26
2.3.2 可視化詞向量 27
2.3.3 詞向量在下遊任務中的使用 29
2.4 Word2vec數學原理 30
2.4.1 語言模型及其評價 30
2.4.2 神經網絡機率語言模型 32
2.4.3 Word2vec原理 33
2.5 用TensorFlow實作Word2vec 38
2.5.1 資料準備 38
2.5.2 模型建構及訓練 40
2.5.3 詞向量評估與Gensim實踐 41
第3章 循環神經網絡之一： 輸入和輸出 45
3.1 循環神經網絡的輸入和輸出 46
3.1.1 循環神經網絡的狀态與輸出 46
3.1.2 輸入和輸出一一對應 48
3.1.3 一對多和多對一 49
3.1.4 任意長度的輸入和輸出 50
3.2 區分RNN和RNNCell 51
3.2.1 基類Layer 52
3.2.2 RNNCell接口 53
3.2.3 RNN接口 54
3.3 簡單循環神經網絡執行個體 54
3.4 三種常見的RNN 56
3.4.1 SimpleRNN 57
3.4.2 LSTM 58
3.4.3 GRU 61
3.5 雙向和多層RNN 63
3.5.1 雙向RNN 63
3.5.2 單向多層RNN 65
3.5.3 雙向多層RNN 67
第 4 章 循環神經網絡之二：進階 71
4.1 在RNN中使用Dropout 71
4.1.1 全連接配接層中的Dropout 71
4.1.2 RNN中的Dropout 73
4.2 RNN中的梯度流動 75
4.2.1 時序反向傳播算法 75
4.2.2 LSTM的梯度流 79
4.3 RNN中的歸一化方法 83
4.3.1 批歸一化 84
4.3.2 層歸一化 87
第 5 章 循環神經網絡之三： 實戰技巧 92
5.1 序列分類 92
5.1.1 MNIST數字圖像分類 92
5.1.2 變長序列處理與情感分析 94
5.2 超長序列的處理 100
5.2.1 狀态傳遞與資料準備 101
5.2.2 字元級語言模型 104
5.3 序列标注和條件随機場 110
5.3.1 IOB格式 110
5.3.2 CONLL2003命名實體識别 111
5.3.3 條件随機場 115
5.4 中間層輸出的提取 119
第 6 章 序列到序列問題 127
6.1 序列到序列問題概述 127
6.1.1 序列到序列問題的兩個代表 127
6.1.2 三種序列到序列模型 128
6.2 CTC 130
6.2.1 CTC 模型結構 131
6.2.2 長短序列的轉換 132
6.2.3 計算标簽序列的機率 133
6.2.4 CTC 的推斷算法 136
6.2.5 CTC的缺陷 139
6.2.6 TensorFlow中的CTC 139
6.3 Transducer 141
6.3.1 Transducer模型結構 141
6.3.2 Transducer的對齊網格 142
6.3.3 Transducer的訓練算法 144
6.3.4 Transducer模型的推斷 145
6.3.5 Transducer的貪心解碼算法 145
6.3.6 Transducer的集束搜尋解碼算法 146
6.4 編碼器-解碼器架構 148
6.4.1 編碼器-解碼器架構簡介 149
6.4.2 編碼器-解碼器架構代碼示例 151
6.4.3 編碼器-解碼器架構的其他應用 153
6.5 文本生成問題的資料處理流程 153
第 7 章 注意力機制 157
7.1 編碼器-解碼器-注意力架構概述 157
7.2 兩種注意力機制的具體實作 160
7.2.1 加性注意力 160
7.2.2 乘性注意力 161
7.2.3 對注意力機制的了解 163
7.3 TensorFlow中的注意力機制 164
7.3.1 熟悉 tfa.seq2seq164
7.3.2 注意力子產品的引入 171
7.4 注意力機制的其他應用 179
第 8 章 超越序清單示：樹和圖   181
8.1 自然語言中的樹結構   181
8.2 遞歸神經網絡：TreeLSTM   183
8.2.1 遞歸神經網絡簡介   183
8.2.2 TreeLSTM 兩例   185
8.2.3 N元樹形LSTM的TensorFlow實作  187
8.3 樹形 LSTM 的其他問題   189
8.3.1 樹形遞歸   189
8.3.2 動态批處理   191
8.3.3 結構反向傳播算法   191
8.3.4 樹形 LSTM 的必要性  192
8.4 圖與自然語言處理  193
8.4.1 LSTM 的其他拓展  193
8.4.2 圖神經網絡的應用  195
第 9 章 卷積神經網絡   199
9.1 離散卷積的定義  200
9.1.1 卷積的次元  200
9.1.2 卷積的參數  202
9.2 卷積神經網絡的兩個執行個體  204
9.2.1 文本分類與 TextCNN  205
9.2.2 語音合成與 WaveNet  208
第10章 Transformer   219
10.1 Transformer 模型結構介紹  220
10.1.1 注意力層  222
10.1.2 前饋神經網絡層  227
10.1.3 殘差連接配接與層歸一化  228
10.1.4 位置資訊的引入  229
10.1.5 Transformer 整體結構  232
10.2 Transformer：實作與思考  233
10.2.1 從零實作 Transformer  233
10.2.2 訓練和推斷  244
10.2.3 關于Transformer子產品的反思  249
10.3 Transformer 模型的拓展  253
10.3.1 平方複雜度與顯存優化  253
10.3.2 圖靈完備性與歸納偏置  258
10.3.3 非自回歸模型  259
10.4 Transformer與其他模型的聯系   261
第11章 預訓練語言模型   263
11.1 預訓練語言模型發展簡史  264
11.2 GPT  266
11.2.1 語言模型+精調解決一切問題  266
11.2.2 GPT-2 和 GPT-3：大力出奇迹  270
11.2.3 GPT系列全回顧  276
11.3 BERT  277
11.3.1 為什麼 GPT 和 ELMo 還不夠好  277
11.3.2 無監督語料知識提取方案  278
11.3.3 在下遊任務上精調 BERT  282
11.3.4 BERT 改進方案  284
11.4 後預訓練時代  287
第12章 其他複雜模型   289
12.1 生成對抗網絡  289
12.1.1 生成對抗網絡簡介  289
12.1.2 生成對抗網絡與無監督機器翻譯  293
12.2 強化學習  300
12.2.1 強化學習基本概念  300
12.2.2 政策梯度和 REINFORCE 算法  303
12.2.3 強化學習與文本生成  305
12.3 流模型  309
12.3.1 歸一化流簡介   310
12.3.2 逆自回歸流與并行 WaveNet   312
參考文獻   316
附錄一 插圖   334
附錄二 算法   337
附錄三 術語表   338

本書特色

内容覆寫全面：從最基礎的詞向量，到近期大火的預訓練 Transformer 語言模型；從簡單實用的 CNN/RNN，到開拓視野的流模型、強化學習，這裡有你所需要知道的一切。

理論結合實踐：除模型結構外，本書還會涉及自然語言處理任務進行前後處理的細節，以及常見名額的典型範圍和實體含義。如何把文本資料轉化成訓練樣本？多層 RNN 之間如何連接配接？困惑度和 BLEU 分數代表什麼？這些問題都能在本書中找到答案。

代碼詳細解讀：本書中重點介紹的模型都有相應的配套代碼實作及輔助講解，幫助讀者親手搭建神經網絡、熟悉模型細節。對于某些 TensorFlow 中高度封裝的接口，還會詳細講解每個參數的含義和内部實作細節，讓讀者不僅限于調包，知其然更知其是以然。

參考資料豐富：插圖、算法、術語表全部單獨形成附錄，友善讀者翻閱、對照檢視。除了仔細講解基礎知識之外，本書還就一些百家争鳴的内容給出了大量延伸閱讀的參考文獻，引導讀者進一步學習探索，兼聽則明。

遵循認知規律：内容編排由淺入深，逐漸介紹愈來愈複雜的模型結構；同時包含數學公式、文字解釋和形象了解，多管齊下幫助讀者了解；知識點和學科發展史互相穿插，弄清每個模型的來龍去脈。

内容展示

本文節選自《深度序列模型與自然語言處理：基于TensorFlow2實踐》，内容釋出獲得作者和出版社授權。

新書推薦 | 深度序列模型與自然語言處理——基于 TensorFlow 2 實踐

繼續閱讀

Linux下Anaconda安裝tensorflow-gpu

tensorflow筆記實踐：正則化優化過拟合

TensorFlow運作模型——會話

【Ubuntu-Tensorflow】TF1.0到TF1.2出現“Key LSTM/basic_lstm_cell/bias not found in checkpoin”問題

linux下的conda安裝tensorflow

Linux環境下 TensorFlow的安裝和使用基于Anaconda的tensorflow安裝

MindSpore儲存模型的格式疑惑

使用PowerApps制作請假系統（二）--在Flow中生成請假審批流

【Tensorflow】Tensorflow介紹

NLP從入門到放棄_IBM Model1IBM Model1

鸢尾花分類

利用tensorflow建構AlexNet模型，實作小數量級的貓狗分類（隻有train）

ImportError: libcublas.so.10.0: cannot open shared object file: No such file解決方法

ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory（完美解決）

一種解決思路： ImportError: libcublas.so.10.0: cannot open shared object file: No such file

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合