天天看點

Word2Vec 究竟選擇Tensorflow還是 gensim

最近想訓練專業領域的語料庫,深度學習領域python的版本較多,國内普遍使用gensim來訓練,而word2vec是Google提出的,Tensorflow上有例子實作。最近tensorflow越來越流行,是以考慮采用tensorflow來訓練,可能能達到更快的訓練速度,在技術方案上更符合主流。經過一周的實驗,發現效果不如人意。具體如下:

-網上評估gensim的效果比tensorflow好很多。

原文連結

-沒有找到tensorflow運作windows上的word2vec說明,word2vec_basic運作沒有問題,但進階版需要編譯op。

-沒有找到tensorflow上word2vec版本中的questions_words.txt中文方面的具體應用。

上述情況說明gensim在文本訓練的難易程度、準确率方面比tensorflow示範程式裡面介紹的方法好多了。但國内沒有找到具體的原因,最後在stackoverflow.com上找到了一篇文章,詳細說明了可能的原因,讓我徹底放棄了tensorflow上實作word2vec的想法。

經過實際測試, gensim通過Cpython來實作底層算法,速度很快,簡單易用。