給全文搜尋引擎Manticore (Sphinx) search 增加中文分詞

Sphinx search 是一款非常棒的開源全文搜尋引擎，它使用C++開發，索引和搜尋的速度非常快，我使用sphinx的時間也有好多年了。最初使用的是coreseek，一個國人在sphinxsearch基礎上添加了mmseg分詞的搜尋引擎，可惜後來不再更新，sphinxsearch的版本太低，bug也會出現；後來也使用最新的sphinxsearch，它可以支援幾乎所有語言，通過其内置的ngram tokenizer對中文進行索引和搜尋。

但是，像中文、日文、韓文這種文字使用ngram還是有很大弊端的：

當Ngram=1時，中文（日文、韓文）被分解成一個個的單字，就像把英文分解成一個個字母那樣。這會導緻每個單字的索引很長，搜尋效率下降，同時搜尋結果習慣性比較差。

當Ngram=2或更大時，會産生很多無意義的“組合”，比如“的你”、“為什”等，導緻索引的字典、索引檔案等非常大，同時也影響搜尋速度。

基于以上弊端，為中日韓文本加入分詞的tokenizer是很有必要的。

于是決定來做這件事。先去Sphinxsearch網站去看看，發現它已經釋出了新的3.x版本，而且加入了很多很棒的特性，然而它從Sphinxsearch 3.x 開始，暫時不再開源. 不過，部分前Sphinxsearch的開發人員跳出來成立新團隊，在Sphinx 2.x版本基礎上開發自己的Manticoresearch。這兩者很像，從它們的名字就可以看出來，這倆都是獅身怪獸。

Sphinx 是（古埃及）獅身人面像，Manticore 是（傳說中的）人頭獅身龍（蠍）尾怪獸

Manticoresearch 從Sphinxsearch 繼承而來，并做了性能優化. 是以，我選擇了Manticoresearch 來添加中日韓分詞。

首先從Manticoresearch的github倉庫pull最新的代碼來談價，後面我也會盡力與Manticoresearch的主分支保持同步。

算法實作

算法基于字典，具體是cedar的實作的雙數組trie。cedar是C++實作的高效雙數組trie，也是分詞字典的最佳之選。cedar的協定是GNU GPLv2, LGPLv2.1, and BSD;或者email聯系作者所要其它協定。

通過最小比對（而非單字）來比對字典和字元串，把字元串分割成最短（而非單字）的詞。如果遇到處理不了的歧義時，以單字做詞。這樣的目的是，保證搜尋時能找到這些内容而不丢失。

稍微解釋一下，對于搜尋引擎的分詞為什麼這麼做：

搜尋引擎要能找到盡可能全内容：最徹底的方法是ngram=1，每個字單獨索引，這樣你搜尋一個單字“榴”時，含有“榴蓮”的文本會被找到，但缺點就如前面所說。

搜尋引擎要能找到盡可能相關的内容：分詞就是比較好的方法，對詞進行索引，這樣你搜尋一個單字“榴”時，含有“榴蓮”的文本就不會被找到。但分詞的粒度要小，比如“程式設計語言”這是一個詞組，如果把這個分成一個詞，你搜尋“程式設計”時，就找不到隻含“程式設計語言”的文本，同樣的，“上海市”要分成“上海”和“市”，等等。是以，“最小比對”适用于搜尋引擎。

編譯安裝

從github倉庫manticoresearch-seg擷取源碼，編譯方法跟Manticoresearch一樣，具體看官方文檔。

使用方法

準備詞表把所有詞寫到一個txt檔案，一行一個詞，如下所示：

# words.txt
中文
中國語
중국어

建立字典成功編譯代碼後，就會得到建立字典的可執行程式make_segdictionary. 然後執行指令:

./make_segdictionary words.txt words.dict

這樣就得到了字典檔案: words.dict

配置索引隻需在配置檔案的 index {...} 添加一行即可：

index {
    ...
    seg_dictionary = path-to-your-segmentation-words-dictionary
    ...
}

提醒: 分詞對批量索引和實時索引都起作用。

吐槽

添加分詞最初的想法是，我的代碼作為新增檔案加入項目，隻在原有檔案個别處添加就好。這樣做分得比較清楚，後面對manticore官方倉庫送出代碼也比較清晰。于是就嘗試這樣做。

然而，Sphinx的代碼組織的真是有點亂，Manticore沿用Sphinx的代碼是以架構是一樣的。最大的一個cpp檔案sphinx.cpp 竟然有3萬多行代碼，很多類的聲明直接放在這個.cpp 檔案裡面，而沒有放到頭檔案sphinx.h裡面。因為我實作的分詞tokenizer必須要繼承它的類保持接口一緻。嘗試着把cpp檔案的一些聲明移到.h檔案，結果是越移越多，要對原始檔案做很大改動，甚至可能要重新架構源代碼。不是不可以重新架構，一來會很費時間，二來向官方送出代碼很難被接受，三是跟官方代碼保持同步就很費勁，最終還是在原來sphinx.cpp檔案中添加分詞tokenizer: CSphTokenizer_UTF8Seg 。

當然，Sphinx的代碼的類的繼承關系比較清晰，繼承原來的tokenizer實作新的也不算費事，修改了4個源碼檔案就添加好了分詞tokenizer。

文章來自于猿人學部落格：

Python教程

給全文搜尋引擎Manticore (Sphinx) search 增加中文分詞

繼續閱讀

筆試面試題目：滑動視窗(二)

27. Remove Element(清單)題目代碼

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

C經典書籍筆記——C陷阱與缺陷②(文法陷阱之優先級)一、錯誤案列二、優先級規律

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

線性表之順序表的實作

C++判斷素數、求最大公約數代碼判斷一個數是否為素數求兩個數的最大公約數

SequoiaDB巨杉資料庫C++驅動概述

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

hdu7108哈希