天天看點

FAIR 最新論文:句子分類新範式,你get到了嗎

雷鋒網 AI 科技評論按,作為人工智能的重要方向之一,NLP 領域的研究目前開展得如火如荼。1 月 30 日,facebook 人工智能研究院(FAIR)釋出了一篇博文,公布了他們的論文「No Training Required: Exploring Random Encoders for Sentence Classification 」。

這篇論文被釋出在 arxiv 上,主要講了一種不需要訓練就能探索句子分類的随機編碼器。論文的主要介紹如下:

研究内容:

這是一個強大的,新穎的語句嵌入基線,它不需要進行任何訓練。在沒有任何額外訓練的情況下,我們探索了用預訓練單詞嵌入來計算句子表達方式的各種方法。其目的是讓語句嵌入具有更堅實的基礎:1)看看現代句子嵌入從訓練中獲得了多少好處(令人驚訝的是,事實證明,這是微乎其微的);2)為該領域提供更合适(也更強大)的基線。

它是如何工作的:

句子嵌入是一種矢量表示方法,其中句子被映射到表示其意義的數字序列。這通常是通過組合函數轉換單詞嵌入來建立的。句子嵌入是自然語言處理(NLP)中的一個熱門話題,因為它比單獨使用單詞嵌入更容易進行文本分類。鑒于句子表達研究的快速進展,建立堅實的基線是很重要的。

我們開始使用目前最先進的方法來确定有哪些收獲,而不是采用随機的方法,這些随機的方法隻結合了預訓練的單詞嵌入。随機特性的作用在機器學習社群中早已為人所知,是以我們将其應用到這個 NLP 任務中。我們探索了三種方法:随機嵌入投影包、随機 LSTM 和回聲狀态網絡。我們的研究結果表明,句子嵌入中的提升很大程度上來自于詞語表征。我們發現,對經過預訓練的單詞嵌入的随機參數化構成了一個非常強的基線,有些時候,這些基線甚至與諸如 SkipThought 和 InferSent 等著名的句子編碼器的性能相比對。這些發現為今後的句子表征學習的研究提供了強有力的基礎。我們還對句子分類評估的一些合适的實驗方案進行了認真的探讨,并對今後的研究提出了建議。雷鋒網(公衆号:雷鋒網)

為什麼它如此重要:

盡管最近對句子編碼的研究較多,但是 NLP 的研究者們對于詞彙嵌入和句子嵌入之間的關系仍然知之甚少。随着該領域研究的快速進展,對不同方法進行比較并不總是正确的。每隔一段時間我們需要往前回顧,以便對現有的最先進的方法産生更深入地了解,并分析這些方法為什麼有效,這一點很重要。通過對句子嵌入的研究提供新的見解,并設定更強的基線,我們可以提高對神經網絡表示和了解語言的原理的認識。他們在 Github 上分享了他們的代碼。

點選以下連結,閱讀全文:

No Training Required: Exploring Random Encoders for Sentence Classification

via:https://code.fb.com/ml-applications/random-encoders/

雷鋒網

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

繼續閱讀