天天看點

coreseek添加新詞庫

coreseek添加新詞庫

coreseek使用mmseg作為分詞工具,預設的詞庫是有限的,我們需要為mmseg增加自定義詞,用來豐富詞庫,實作更加精準的搜尋服務。本文介紹如何自定義mmseg詞,并通過腳本和mmseg指令導入詞庫。

1、下載下傳搜狗詞庫

搜狗詞庫下載下傳位址:http://pinyin.sogou.com/dict/

2、然後通過以下工具 把搜狗詞庫scel轉txt/mmseg

https://www.toolnb.com/tools/scelto.html

3、将多個詞庫txt文本檔案合并為一個檔案

建立一個文本文檔,文本中輸入如下代碼:

copy *.txt unigram.txt

将文本文檔的擴充名改為bat,如“merge.bat”。

輕按兩下運作merge.bat,會将所有以.txt結尾的檔案合并到unigram.txt中

4、生成uni.lib最終詞庫

用cmd指令行進入bin檔案夾,裡面有個mmseg.exe 程式

cd E:\..\coreseek-3.2.14-win32\coreseek-3.2.14-win32\bin

unigram.txt也放入這個檔案夾

在cmd中運作以下指令

mmseg -u unigram.txt

将會在unigram.txt所在目錄中産生一個名為unigram.txt.uni的檔案,

将該檔案改名為uni.lib,

完成詞典的構造。

需要注意的是,unigram.txt需要預先準備,并且編碼格式必須為UTF-8編碼。

  5. 測試新詞庫能否正解分詞。在C:\coreseek\bin下建立文本檔案test.txt。輸入要測試的關鍵詞。 例如:四季服裝網中大面料輔料,然後儲存。當中一定要包含你新加進詞庫的某個關鍵詞。例如四季服裝網是我新加的 關鍵詞。然後在剛才的指令行下執行mmseg -d C:\coreseek\bin test.txt>result.txt .執行完後打開新生産 的結果檔案result.txt .如果看到分詞結果類似四季服裝網/x 中大/x 面料/x 輔料/x 的話證明詞庫已正确生成, 如果看到新關鍵詞被分切開如: 四/x 季/x 服/x 裝/x網/x 中大/x 面料/x 輔料/x的話就說明新的詞庫并不正确。 要檢查一下哪裡出錯了,重新生産。

  6. 再把得到的uni.lib複制到C:\coreseek\etc覆寫原檔案就大功告成了

把uni.lib放回uni.lib所在目錄