Facebook 基于十億單詞量建構高效神經網絡模型

2021-11-08 15:22:20

使用神經網絡進行序列預測是衆所周知的計算機科學問題，在語音識别、機器翻譯、語言模組化和其他領域中都有着廣泛的應用。這種預測使用的模型對計算能力要求很高，這限制了它們的實際應用。

facebook ai research的科學家設計了自适應的softmax算法，這是一種為gpu定制的近似算法，可在龐大的單詞量基礎上高效地訓練神經網絡。如公開發表的論文中所描述的，自适應softmax利用單詞在大語料庫中的不均衡分布，形成可以最小化計算複雜度的群集。完全softmax與詞彙庫大小線性相關，而自适應softmax是次線性相關的，并且針對gpu進行了優化。

在開發softmax的同時，facebook研究人員釋出了開源庫torch-rnnlib，幫助研究人員設計和測試gpu中的遞歸模型。有了torch.cudnn，可以使用nvidia cuda deep neural network庫輕松通路基線。rnn、lstm、gru和其他遞歸神經網絡都有具體的實作，研究人員可以很容易地把它們用于遞歸神經網絡的設計。

facebook研究人員在單個gpu上對該算法進行測試，速度達到了每秒12500個單詞，同時保持精确度接近完全softmax。從基準困惑度來看，谷歌公司的jozefowicz等人在2016年使用32個gpu訓練了3個星期得到30的困惑度（越低越好），同時使用18個gpu訓練了幾天得到44的困惑度。google使用tensorflow實作的lstm模型釋出在github上，它的主要作者在reddit的相關話題中提出了一個有趣的方法來解釋困惑度。相反地，自适應softmax可以在大約14小時内達到50的困惑度，在一兩天内達到43.9的困惑度以及在六天内達到39.8的困惑度。如果沒有cudnn庫，性能下降約30％。所有工具和技術都針對europarl和十億字語料庫進行過測試，這些語料庫是目前可獲得的最大的幾個語料庫。

Facebook 基于十億單詞量建構高效神經網絡模型

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希