資訊檢索模型
布爾模型
優點
缺點
向量空間模型
模型描述
索引項
出現次數
TF-IDF
機率模型
二值獨立模型(BIM)
- 二值(等價于布爾值):文檔和查詢都表示為此項出現與否的不二向量
- 詞項在文檔中的出現是互相獨立的
利用機率模型來估計每篇文檔和查詢之間的相關性機率,然後對結果進行降序排列
排序函數
詞項的獨立性
推導簡化
u t u_t ut的估計
p t p_t pt的估計
向量空間模型與機率模型的差别
Okapi BM25:非二值的機率模型
語言模型
語言模型在資訊檢索中的應用
最大似然估計的問題
語言模型與向量空間模型