最近兩天看了下lucene的源碼,印象還停留在2.x版本,現在都4.8了,變化不小,不過換湯不換藥,還是比較容易了解的。
其實關于全文檢索的倒排序,邏輯是非常簡單的,“空間換時間”的概念也不複雜。
寫了一段示意代碼,說明一下。
以下的示意代碼,采用mysql作為索引檔案的存儲媒體。
使用“二進制切分”,亦即“二進制” “元切” “切分”。
最近兩天看了下lucene的源碼,印象還停留在2.x版本,現在都4.8了,變化不小,不過換湯不換藥,還是比較容易了解的。
其實關于全文檢索的倒排序,邏輯是非常簡單的,“空間換時間”的概念也不複雜。
寫了一段示意代碼,說明一下。
以下的示意代碼,采用mysql作為索引檔案的存儲媒體。
使用“二進制切分”,亦即“二進制” “元切” “切分”。