一、分詞
SCWS 中文分詞v1.2.2 開源免費的中文分詞系統,PHP分詞的上乘之選!
1. 根據您目前用的 PHP 版本,下載下傳相應已編譯好的 php_scws.dll 擴充庫。
2. 将下載下傳後的 php_scws.dll 放到 php 安裝目錄的
extensions/ 目錄中去(通常為:X:/php/extensions/或 X:/php/ext/)。我用的XAMPP,是以

3. 建立一個本地目錄放規則集檔案和詞典檔案,建議使用:C:/program files/scws/etc
4. 從 scws 首頁上下載下傳詞典檔案,解壓後将 *.xdb 放到上述目錄中
5. 從 scws 首頁上下載下傳規則集檔案,解壓後将 *.ini 放到第 3 步建立的目錄
規則集檔案壓縮包:http://www.xunsearch.com/scws/down/rules.tgz
解壓後有三個檔案分别為 rules.ini rules.utf8.ini rules_cht.utf8.ini
将三件檔案拷到第 3 步所述的目錄中
6. 修改 php.ini 通常位于 C:/windows/php.ini 或 C:/winnt/php.ini 之類的目錄,
在 php.ini 的末尾加入以下幾行:
[scws]
;
; 注意請檢查 php.ini 中的 extension_dir 的設定值是否正确, 否則請将 extension_dir 設為空,
; 再把 php_scws.dll 指定為絕對路徑。
extension = php_scws.dll
scws.default.charset = gbk
scws.default.fpath = "c:/program files/scws/etc"
5. 重開 web 伺服器即可完成。
以上都是按照官方文檔照辦,照貓畫虎即可。在phpinfo()中可以看到:
嗯,這就是SCWS裝好了。接下來就看看如何用PHP調用它。
二、PHP下分詞工具SCWS的使用
?php
header('Content-Type:text/html; charset=utf-8');
$so = scws_new();
$so->set_charset('utf8');
$so->send_text("2、我一向了解不了母親不同意兒子找的對象是一種什麼心理。嫌身高?嫌體重?嫌長相?嫌學曆?嫌單親家庭?");
$i = 0;
while ($tmp = $so->get_result())
{
foreach($tmp as $K=>$val){
echo $val['word'].' '.$val['attr']."
";
}
}
$so->close();
?>
主要是用scws_new()執行個體化一個對象so,然後用so的send_text()方法接收字元串,并通過關鍵的get_result()得到傳回的結果。
關于中文詞的詞性縮寫,請參考如下介紹:
n.名詞
v.動詞
adj.形容詞
adv.副詞
clas.量詞
echo.拟聲詞
stru.結構助詞
aux.助詞
coor.并列連詞
conj.連詞
suffix.字尾
prefix.字首
prep.介詞
pron.代詞
ques.疑問詞
num.數詞
idiom.成語