天天看點

網頁文本分詞的PHP版本操作過程

一、分詞

    SCWS 中文分詞v1.2.2 開源免費的中文分詞系統,PHP分詞的上乘之選!

1. 根據您目前用的 PHP 版本,下載下傳相應已編譯好的 php_scws.dll 擴充庫。

2. 将下載下傳後的  php_scws.dll 放到 php 安裝目錄的

   extensions/ 目錄中去(通常為:X:/php/extensions/或 X:/php/ext/)。我用的XAMPP,是以

網頁文本分詞的PHP版本操作過程
網頁文本分詞的PHP版本操作過程

3. 建立一個本地目錄放規則集檔案和詞典檔案,建議使用:C:/program files/scws/etc

4. 從 scws 首頁上下載下傳詞典檔案,解壓後将 *.xdb 放到上述目錄中

網頁文本分詞的PHP版本操作過程

5. 從 scws 首頁上下載下傳規則集檔案,解壓後将 *.ini 放到第 3 步建立的目錄

   規則集檔案壓縮包:http://www.xunsearch.com/scws/down/rules.tgz

   解壓後有三個檔案分别為 rules.ini  rules.utf8.ini rules_cht.utf8.ini

   将三件檔案拷到第 3 步所述的目錄中

網頁文本分詞的PHP版本操作過程

6. 修改 php.ini 通常位于 C:/windows/php.ini 或 C:/winnt/php.ini 之類的目錄,

   在 php.ini 的末尾加入以下幾行:

[scws]

;

; 注意請檢查 php.ini 中的 extension_dir 的設定值是否正确, 否則請将 extension_dir 設為空,

; 再把 php_scws.dll 指定為絕對路徑。

extension = php_scws.dll

scws.default.charset = gbk

scws.default.fpath = "c:/program files/scws/etc"

網頁文本分詞的PHP版本操作過程

5. 重開 web 伺服器即可完成。

   以上都是按照官方文檔照辦,照貓畫虎即可。在phpinfo()中可以看到:

網頁文本分詞的PHP版本操作過程

   嗯,這就是SCWS裝好了。接下來就看看如何用PHP調用它。

二、PHP下分詞工具SCWS的使用

?php

    header('Content-Type:text/html; charset=utf-8');

    $so = scws_new();

    $so->set_charset('utf8');

    $so->send_text("2、我一向了解不了母親不同意兒子找的對象是一種什麼心理。嫌身高?嫌體重?嫌長相?嫌學曆?嫌單親家庭?");

    $i = 0;

    while ($tmp = $so->get_result())

    {

        foreach($tmp as $K=>$val){

            echo $val['word'].'  '.$val['attr']."

";

        }

    }

    $so->close();

?>

    主要是用scws_new()執行個體化一個對象so,然後用so的send_text()方法接收字元串,并通過關鍵的get_result()得到傳回的結果。

網頁文本分詞的PHP版本操作過程

   關于中文詞的詞性縮寫,請參考如下介紹:

n.名詞

v.動詞

adj.形容詞

adv.副詞

clas.量詞

echo.拟聲詞

stru.結構助詞

aux.助詞

coor.并列連詞

conj.連詞

suffix.字尾

prefix.字首

prep.介詞

pron.代詞

ques.疑問詞

num.數詞

idiom.成語