天天看點

大資料資訊挖掘中文分詞是關鍵

  在中文自然語言進行中,詞是最小的能夠獨立活動的有意義的語言成分。漢語是以字為基本書寫機關,詞語之間沒有明顯的區分标記,是以進行中文自然語言處理通常是先将漢國文本中的字元串切分成合理的詞語序列,然後再在此基礎上進行其它分析處理。中文分詞是中文資訊處理的一個基礎環節,已被廣泛應用于中文文本處理、資訊提取、文本挖掘等應用中。分詞涉及許多方面的問題,主要包括:

  (1). 核心詞表問題:許多分詞算法都需要有一個核心的(通用、與領域無關的)詞表。凡在該詞表中的詞,分詞時就應該切分出來。但對于哪些詞應當 收進核心詞表,目前尚無一個标準;

  (2). 詞的變形問題:漢語中的動詞和形容詞有些可以産生變形結構,如“打牌”、“開心”、“看見”、“相信”可能變形成“打打牌”、“開開心”、“看沒看見”、“相不相信”等,對這些變形結構的切分往往缺少可操作而又合理的規範;

  (3). 詞綴的問題:如語素“者”在現代漢語中單用是沒有意義的,是以“作者”、“成功者”、“開發者”内部不能切開。

  (4). 漢語自動分詞規範須支援各種不同目标的應用,但不同目标的應用對詞的要求是不同甚至是沖突的。比如以詞為機關的鍵盤輸入系統為了提高輸入速度,一些互現頻率高的互相鄰接的幾個字也常作為輸入機關,如“這是”、“每一”、“并不”、“不多”、“不在”、“就是”、“也就”等;

  NLPIR/ICTCLAS分詞系統針對網際網路内容處理的需要,融合了自然語言了解、網絡搜尋和文本挖掘的技術,可以支援中英文分詞與詞性标注,可視化系統可根據詞性對不同的分詞結果進行區分顯示,一般虛詞都是淺色,而名詞、動詞、形容詞等實詞為顯著的顔色。系統還支援線上使用者詞典的輸入,使用者可以在右下方添加使用者詞及詞性。

  漢語詞法分析能對漢語語言進行拆分處理,是中文資訊處理必備的核心部件,采用條件随機場(Conditional Random Field,簡稱CRF)模型,分詞準确率接近99%,具備準确率高、速度快、可适應性強等優勢;特色功能包括:切分粒度可調整,融合20餘部行業專有詞典,支援使用者自定義詞典等。

  詞性标注能對漢語語言進行詞性的自動标注,它能夠真正了解中文,自動根據語言環境将詞語諸如“建設”标注為“名詞”或“動詞”,采用條件随機場(Conditional Random Field,簡稱CRF)模型,一級詞性标注準确率接近99%,具備準确率高、速度快、可适應性強等優勢。

  在資訊進行中,分詞是一項基本技術,因為中文的詞彙是緊挨着的,不像英文有一個天然的空格符可以分隔開不同的單詞。雖然把一串漢字劃分成一個個詞對于漢語使用者來說是很簡單的事情,但對機器來說卻很有挑戰性,是以一直以來分詞都是中文資訊處理領域的重要的研究問題。

繼續閱讀