問一個關于NLP中N-gram的問題，急急急

2023-06-09 11:48:15

問一個關于NLP中N-gram的問題，急急急

- 背景說明
- 要求是這樣的
- 我覺得難以實作的是
- 我是這樣了解的，但老師說不對

背景說明

最近是畢業季，而我的畢設題目是文本可視化分析，其中就用到了自然語言進行中的N-gram。

要求是這樣的

統計每一個文本中單詞的bigram出現的頻率，選擇了前1500個高頻單詞的bigram作為特征向量

我覺得難以實作的是

如何統計每一個詞的bigram機率

我是這樣了解的，但老師說不對

如：句子 S=“我在西安上大學”

那麼“大學”的機率就是，P（“大學”|S）=1/6

即，首先把句子分為：我在、在西、西安、安上、上大、大學。

大學出現了一次，是以就是1/6。

老師的意思好像是先把句子分詞：“我在西安上大學”，

然後以分好的詞為機關計算bigram，我覺得老師說的不對，而且修改挺麻煩的

大神求解

n-gram 自然語言處理

上一篇: CSS學習總結ing

下一篇: centos搭建自己的docker伺服器

繼續閱讀