編寫簡單的中文分詞程式

幾個月之前,在網上找到了一個中文詞庫素材(幾百K),當時便想寫一個分詞程式了.我對漢語分詞沒有什麼研究,也就憑自己臆想而寫.若有相關方面專家,還請多給意見.

一、詞庫

詞庫大概有5萬多詞語(google能搜到,類似的詞庫都能用),我摘要如下:

地區 82

重要 81

新華社 80

技術 80

會議 80

自己 79

幹部 78

職工 78

群衆 77

沒有 77

今天 76

同志 76

部門 75

加強 75

組織 75

第一列是詞,第二列是權重.我寫的這個分詞算法目前并未利用權重.

二、設計思路

算法簡要描述:

對一個字元串S,從前到後掃描,對掃描的每個字,從詞庫中尋找最長比對.比如假設S="我是中華人民共和國公民",詞庫中有"中華人民共和國","中華","公民","人民","共和國"......等詞.當掃描到"中"字,那麼從中字開始,向後分别取1,2,3,......個字("中","中華","中華人","中華人民","中華人民共","中華人民共和","中華人民共和國",,"中華人民共和國公"),詞庫中的最長比對字元串是"中華人民共和國",那麼就此切分開,掃描器推進到"公"字.

資料結構:

選擇什麼樣的資料結構對性能影響很大.我采用Hashtable _rootTable記錄詞庫.鍵值對為(鍵,插入次數).對每一個詞語,如果該詞語有N個字,則将該詞語的1,1~2,1~3,......1~N個字作為鍵,插入_rootTable中.而同一個鍵如果重複插入,則後面的值遞增.

三、程式

具體程式如下(程式中包含權重,插入次數等要素,目前的算法并沒有利用這些.可以借此寫出更有效的分詞算法):

ChineseWordUnit.cs //struct--(詞語,權重)對

public struct ChineseWordUnit

{

private string _word;

private int _power;

/// <summary>

/// 中文詞語單元所對應的中文詞。

/// </summary>

public string Word

{

get

{

return _word;

}

/// 該中文詞語的權重。

public int Power

return _power;

/// 結構初始化。

/// <param name="word">中文詞語</param>

/// <param name="power">該詞語的權重</param>

public ChineseWordUnit(string word, int power)

this._word = word;

this._power = power;

}

ChineseWordsHashCountSet.cs //詞庫容器

/// <summary>

/// 記錄字元串出現在中文字典所錄中文詞語的前端的次數的字典類。如字元串“中”出現在“中國”的前端，則在字典中記錄一個次數。

/// </summary>

public class ChineseWordsHashCountSet

/// 記錄字元串在中文詞語中出現次數的Hashtable。鍵為特定的字元串，值為該字元串在中文詞語中出現的次數。

private Hashtable _rootTable;

/// 類型初始化。

public ChineseWordsHashCountSet()

_rootTable = new Hashtable();

/// 查詢指定字元串出現在中文字典所錄中文詞語的前端的次數。

/// <param name="s">指定字元串</param>

/// <returns>字元串出現在中文字典所錄中文詞語的前端的次數。若為-1，表示不出現。</returns>

public int GetCount(string s)

if (!this._rootTable.ContainsKey(s.Length))

return -1;

Hashtable _tempTable = (Hashtable)this._rootTable[s.Length];

if (!_tempTable.ContainsKey(s))

return (int)_tempTable[s];

/// 向次數字典中插入一個詞語。解析該詞語，插入次數字典。

/// <param name="s">所處理的字元串。</param>

public void InsertWord(string s)

for(int i=0;i<s.Length;i++)

string _s = s.Substring(0,i+1);

this.InsertSubString(_s);

/// 向次數字典中插入一個字元串的次數記錄。

/// <param name="s">所插入的字元串。</param>

private void InsertSubString(string s)

if (!_rootTable.ContainsKey(s.Length)&&s.Length>0)

Hashtable _newHashtable = new Hashtable();

_rootTable.Add(s.Length,_newHashtable);

Hashtable _tempTable = (Hashtable)_rootTable[s.Length];

_tempTable.Add(s,1);

else

_tempTable[s]=(int)_tempTable[s]+1;

ChineseParse.cs //分詞器

/// 中文分詞器。

public class ChineseParse

private static ChineseWordsHashCountSet _countTable;

static ChineseParse()

_countTable = new ChineseWordsHashCountSet();

InitFromFile("ChineseDictionary.txt");

/// 從指定的檔案中初始化中文詞語字典和字元串次數字典。

/// <param name="fileName">檔案名</param>

private static void InitFromFile(string fileName)

string path = Directory.GetCurrentDirectory() +@"\" + fileName;

if (File.Exists(path))

using (StreamReader sr = File.OpenText(path))

{

string s = "";

while ((s = sr.ReadLine()) != null)

{

ChineseWordUnit _tempUnit = InitUnit(s);

_countTable.InsertWord(_tempUnit.Word);

}

/// 将一個字元串解析為ChineseWordUnit。

/// <param name="s">字元串</param>

/// <returns>解析得到的ChineseWordUnit</returns>

private static ChineseWordUnit InitUnit(string s)

Regex reg = new Regex(@"\s+");

string[] temp = reg.Split(s);

if (temp.Length!=2)

throw new Exception("字元串解析錯誤："+s);

return new ChineseWordUnit(temp[0],Int32.Parse(temp[1]));

/// 分析輸入的字元串，将其切割成一個個的詞語。

/// <param name="s">待切割的字元串</param>

/// <returns>所切割得到的中文詞語數組</returns>

public static string[] ParseChinese(string s)

int _length = s.Length;

string _temp = String.Empty;

ArrayList _words = new ArrayList();

for(int i=0;i<s.Length;)

_temp = s.Substring(i,1);

if (_countTable.GetCount(_temp)>1)

int j=2;

for (;i+j<s.Length+1&&_countTable.GetCount(s.Substring(i,j))>0;j++)

_temp = s.Substring(i,j-1);

i = i + j - 2;

i++;

_words.Add(_temp);

string[] _tempStringArray = new string[_words.Count];

_words.CopyTo(_tempStringArray);

return _tempStringArray;

四、測試

和海量分詞示範程式對比測試:

Case 1:　　新浪體育訊　在被尤文淘汰之後，皇馬主帥博斯克拒絕接受媒體對球隊後防線的批評，同時還為自己排出的首發陣容進行了辯護。“失利是全隊的責任，而不僅僅是後防線該受指責，”博斯克說，“我并不認為我們踢得一塌糊塗。”“我們進入了半決賽，而且在晉級的道路上一路奮戰。即使是今天的比賽我們也有幾個翻身的機會，但我們面對的對手非常強大，他們踢得非常好。”“我們的球迷應該為過去幾個賽季裡我們在冠軍杯中的表現感到驕傲。”博斯克還說。對于博斯克在首發中排出了久疏戰陣的坎比亞索，賽後有記者提出了質疑，認為完全應該将隊内的另一名球員帕文派遣上場以加強後衛線。對于這一疑議，博斯克拒絕承擔所謂的“責任”，認為球隊的首發沒有問題。“我們按照整個賽季以來的方式做了，對于人員上的變化我沒有什麼可說的。”對于球隊在本賽季的前景，博斯克表示皇馬還有西甲聯賽的冠軍作為目标。“皇家馬德裡在冠軍杯中戰鬥到了最後，我們在聯賽中也将這麼做。”

海量分詞結果:

　　新浪體育訊　在被尤文淘汰之後，皇馬主帥博斯克拒絕接受媒體對球隊後防線的批評，同時還為自己排出的首發陣容進行了辯護。 “ 失利是全隊的責任，而不僅僅是後防線該受指責， ” 博斯克說， “ 我并不認為我們踢得一塌糊塗。” “ 我們進入了半決賽，而且在晉級的道路上一路奮戰。即使是今天的比賽我們也有幾個翻身的機會，但我們面對的對手非常強大，他們踢得非常好。” “ 我們的球迷應該為過去幾個賽季裡我們在冠軍杯中的表現感到驕傲。” 博斯克還說。對于博斯克在首發中排出了久疏戰陣的坎比亞索，賽後有記者提出了質疑，認為完全應該将隊内的另一名球員帕文派遣上場以加強後衛線。對于這一疑議，博斯克拒絕承擔所謂的 “ 責任 ” ，認為球隊的首發沒有問題。 “ 我們按照整個賽季以來的方式做了，對于人員上的變化我沒有什麼可說的。” 對于球隊在本賽季的前景，博斯克表示皇馬還有西甲聯賽的冠軍作為目标。 “ 皇家馬德裡在冠軍杯中戰鬥到了最後，我們在聯賽中也将這麼做。”

ChineseParse分詞結果:

　　新浪體育訊　在被尤文淘汰之後，皇馬主帥博斯克拒絕接受媒體對球隊後防線的批評，同時還為自己排出的首發陣容進行了辯護。“ 失利是全隊的責任，而不僅僅是後防線該受指責， ” 博斯克說， “ 我并不認為我們踢得一塌糊塗。 ” “ 我們進入了半決賽，而且在晉級的道路上一路奮戰。即使是今天的比賽我們也有幾個翻身的機會，但我們面對的對手非常強大，他們踢得非常好。 ” “ 我們的球迷應該為過去幾個賽季裡我們在冠軍杯中的表現感到驕傲。 ” 博斯克還說。對于博斯克在首發中排出了久疏戰陣的坎比亞索，賽後有記者提出了質疑，認為完全應該将隊内的另一名球員帕文派遣上場以加強後衛線。對于這一疑議，博斯克拒絕承擔所謂的 “ 責任 ” ，認為球隊的首發沒有問題。 “ 我們按照整個賽季以來的方式做了，對于人員上的變化我沒有什麼可說的。 ” 對于球隊在本賽季的前景，博斯克表示皇馬還有西甲聯賽的冠軍作為目标。 “ 皇家馬德裡在冠軍杯中戰鬥到了最後，我們在聯賽中也将這麼做。 ”

因為沒有體育專業詞庫和人名專業詞庫,是以ChineseParse不能認識這些專業詞.

Case 2: 我國汽車社會第一次重大轉型曆經十多年時間。在1994年出台的《汽車工業産業政策》中，最醒目的一條就是“逐漸改變以行政機關、團體、事業機關及國有企業為主的公款購買、使用小汽車的消費結構”。從公款購買汽車為主到汽車逐漸進入家庭，第一次重大轉型給人民生活品質帶來了巨大提升。這次轉型的主要推動力是态度鮮明的産業政策、持續高速增長的國民經濟以及蓬勃發展的國内汽車工業。然而，當我們快速邁進以私人汽車為主體的汽車社會的時候，也面臨着新的形勢、新的考驗：中央強調樹立和落實科學發展觀，要求國内企業提高自主創新能力；今年“兩會”期間，中央又提出建構和諧社會和節約型社會的精神；同時，我國汽車社會面臨能源緊缺、燃油價格上漲、土地資源有限等諸多不利因素。在這樣的大背景下，進行第二次重大轉型刻不容緩。

我國汽車社會第一次重大轉型曆經十多年時間。在 1994年出台的《汽車工業産業政策》中，最醒目的一條就是 “ 逐漸改變以行政機關、團體、事業機關及國有企業為主的公款購買、使用小汽車的消費結構 ” 。從公款購買汽車為主到汽車逐漸進入家庭，第一次重大轉型給人民生活品質帶來了巨大提升。這次轉型的主要推動力是态度鮮明的産業政策、持續高速增長的國民經濟以及蓬勃發展的國内汽車工業。然而，當我們快速邁進以私人汽車為主體的汽車社會的時候，也面臨着新的形勢、新的考驗：中央強調樹立和落實科學發展觀，要求國内企業提高自主創新能力；今年 “ 兩會 ” 期間，中央又提出建構和諧社會和節約型社會的精神；同時，我國汽車社會面臨能源緊缺、燃油價格上漲、土地資源有限等諸多不利因素。在這樣的大背景下，進行第二次重大轉型刻不容緩。

我國汽車社會第一次重大轉型曆經十多年時間。在 1 9 9 4 年出台的《汽車工業産業政策》中，最醒目的一條就是 “ 逐漸改變以行政機關、團體、事業機關及國有企業為主的公款購買、使用小汽車的消費結構 ”。從公款購買汽車為主到汽車逐漸進入家庭，第一次重大轉型給人民生活品質帶來了巨大提升。這次轉型的主要推動力是态度鮮明的産業政策、持續高速增長的國民經濟以及蓬勃發展的國内汽車工業。然而，當我們快速邁進以私人汽車為主體的汽車社會的時候，也面臨着新的形勢、新的考驗：中央強調樹立和落實科學發展觀，要求國内企業提高自主創新能力；今年 “ 兩會 ” 期間，中央又提出建構和諧社會和節約型社會的精神；同時，我國汽車社會面臨能源緊缺、燃油價格上漲、土地資源有限等諸多不利因素。在這樣的大背景下，進行第二次重大轉型刻不容緩。

可以看出,ChineseParse不能智能處理"第一次","第二次"這種詞,對數字也沒識别能力,不過基本的分詞效果還是可以的.

(畢竟我3個小時就把程式搞定了,怎麼能和别人十年積累的比呢?)

性能測試(迅馳1.5M): 每秒鐘67.7萬字

程式優化有應該更高.

五、小結

進一步應該做的:

1,能識别簡單的外語,數字

2,具備簡單智能

3,擴充詞庫

然後就有實用價值了.

注:前幾個月寫的大多都是諸如此類簡單的中文處理小程式,如繁簡轉換,自動排版,批量替換,中文分詞,有時間的話我會把這些程式集中起來打包成一個實用的中文處理工具.不知道大家還有什麼需求,不防說說.

本文轉自xiaotie部落格園部落格，原文連結http://www.cnblogs.com/xiaotie/archive/2005/08/28/224626.html如需轉載請自行聯系原作者

xiaotie 集異璧實驗室(GEBLAB)

編寫簡單的中文分詞程式

繼續閱讀

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希