天天看點

問一個關于NLP中N-gram的問題,急急急

問一個關于NLP中N-gram的問題,急急急

    • 背景說明
    • 要求是這樣的
    • 我覺得難以實作的是
    • 我是這樣了解的,但老師說不對

背景說明

最近是畢業季,而我的畢設題目是文本可視化分析,其中就用到了自然語言進行中的N-gram。

要求是這樣的

統計每一個文本中單詞的bigram出現的頻率,選擇了前1500個高頻單詞的bigram作為特征向量

我覺得難以實作的是

如何統計每一個詞的bigram機率

我是這樣了解的,但老師說不對

如:句子 S=“我在西安上大學”

那麼“大學”的機率就是,P(“大學”|S)=1/6

即,首先把句子分為:我在、在西、西安、安上、上大、大學。

大學出現了一次,是以就是1/6。

老師的意思好像是先把句子分詞:“我 在 西安 上 大學”,

然後以分好的詞為機關計算bigram,我覺得老師說的不對,而且修改挺麻煩的

大神求解

繼續閱讀