問一個關于NLP中N-gram的問題,急急急
-
- 背景說明
- 要求是這樣的
- 我覺得難以實作的是
- 我是這樣了解的,但老師說不對
背景說明
最近是畢業季,而我的畢設題目是文本可視化分析,其中就用到了自然語言進行中的N-gram。
要求是這樣的
統計每一個文本中單詞的bigram出現的頻率,選擇了前1500個高頻單詞的bigram作為特征向量
我覺得難以實作的是
如何統計每一個詞的bigram機率
我是這樣了解的,但老師說不對
如:句子 S=“我在西安上大學”
那麼“大學”的機率就是,P(“大學”|S)=1/6
即,首先把句子分為:我在、在西、西安、安上、上大、大學。
大學出現了一次,是以就是1/6。
老師的意思好像是先把句子分詞:“我 在 西安 上 大學”,
然後以分好的詞為機關計算bigram,我覺得老師說的不對,而且修改挺麻煩的
大神求解