天天看點

【deep learning學習筆記】Distributed Representations of Sentences and Documents

很久以前關注過一段時間word2vec,最近比較好奇doc2vec,找來資料看看。

時間:2014 作者:Mikolov (word2vec的作者) 發表于:icml 原檔案:http://pan.baidu.com/s/1bnm7COB

主要内容: 繼寫出word2vec之後,接下來的問題是:能否在更大的語言機關上,如:短語、句子、段落、篇章,上面繼續word2vec的工作,将這些語言機關用實屬向量的方式表示出來。

思路: 作者思路很直接,即在word2vec模型的基礎上,将神經網絡的偏置b用一個向量來代替,參與訓練,在獲得每個詞語的實屬向量的同時,也獲得這個代替偏置的向量。作者用這個向量來作為目前上下文content的表示向量。整個訓練方式和word2vec基本一緻。

實驗: 作者一共寫了兩個實驗,我看了第一個。是判斷語句的情感傾向性的。關鍵在于作者如何使用他訓練出來的phrasevec。使用方式如下:對目智語句進行分詞,截取sub-phrase,每個sub-phrase對應一個作者訓練出來的phrasevec。用這些phrasevec,結合LR模型,進行分類,進而預測目智語句的情感傾向。從結果上看,無論是二值分類(正面情感 vs 負面情感)還是多值分類,相比傳統benchmark,作者的方法都有提升。

完。

轉載請注明出處:http://blog.csdn.net/xceman1997/article/details/46290365

繼續閱讀