天天看點

100行實作全文檢索

最近兩天看了下lucene的源碼,印象還停留在2.x版本,現在都4.8了,變化不小,不過換湯不換藥,還是比較容易了解的。

其實關于全文檢索的倒排序,邏輯是非常簡單的,“空間換時間”的概念也不複雜。

寫了一段示意代碼,說明一下。

以下的示意代碼,采用mysql作為索引檔案的存儲媒體。

使用“二進制切分”,亦即“二進制” “元切” “切分”。