結巴分詞功能總結

下載下傳安裝結巴分詞

Python 2.x 下的安裝

全自動安裝：
easy_install jieba 或者 pip install jieba 半自動安裝：先下載下傳http://pypi.python.org/pypi/jieba/ ，解壓後運作 python setup.py install
手動安裝：将jieba目錄放置于目前目錄或者site-packages目錄

通過import jieba 來引用
Python 3.x 下的安裝

目前master分支是隻支援Python2.x 的

Python3.x 版本的分支也已經基本可用： https://github.com/fxsjy/jieba/tree/jieba3k
git clone https://github.com/fxsjy/jieba.git git checkout jieba3k python setup.py install

算法實作：

基于Trie樹結構實作高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)

采用了動态規劃查找最大機率路徑, 找出基于詞頻的最大切分組合

對于未登入詞，采用了基于漢字成詞能力的HMM模型，使用了Viterbi算法

功能

功能1)：分詞

jieba.cut

方法接受兩個輸入參數:

1) 第一個參數為需要分詞的字元串

cut_all

參數用來控制是否采用全模式

jieba.cut_for_search方法接受一個參數：需要分詞的字元串,該方法适合用于搜尋引擎建構反向索引的分詞，粒度比較細

注意：待分詞的字元串可以是

gbk

字元串、

utf-8

字元串或者

unicode

jieba.cut

以及

jieba.cut_for_search

傳回的結構都是一個可疊代的

generator

，可以使用

for

循環來獲得分詞後得到的每一個詞語(

unicode

)，也可以用list(jieba.cut(…))轉化為

list

代碼示例( 分詞 )

#encoding=utf-8
import jieba
seg_list = jieba.cut("我來到北京清華大學", cut_all=True)
print "Full Mode:", "/ ".join(seg_list)  # 全模式
seg_list = jieba.cut("我來到北京清華大學", cut_all=False)
print "Default Mode:", "/ ".join(seg_list)  # 精确模式
seg_list = jieba.cut("他來到了網易杭研大廈")  # 預設是精确模式
print ", ".join(seg_list)
seg_list = jieba.cut_for_search("小明碩士畢業于中國科學院計算所，後在日本京都大學深造")  # 搜尋引擎模式
print ", ".join(seg_list)

Output:

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學 
 【精确模式】: 我/ 來到/ 北京/ 清華大學 
 【新詞識别】：他, 來到, 了, 網易, 杭研, 大廈 (此處，“杭研”并沒有在詞典中，但是也被Viterbi算法識别出來了) 
 【搜尋引擎模式】： 小明, 碩士, 畢業, 于, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造

功能 2) ：添加自定義詞典

開發者可以指定自己自定義的詞典，以便包含jieba詞庫裡沒有的詞。雖然jieba有新詞識别能力，但是自行添加新詞可以保證更高的正确率

用法：

jieba.load_userdict(file_name) # file_name為自定義詞典的路徑

詞典格式和dict.txt一樣，一個詞占一行；每一行分三部分，一部分為詞語，另一部分為詞頻，最後為詞性（可省略），用空格隔開

範例：

自定義詞典：

雲計算 5

李小福 2 nr

創新辦 3 i

easy_install 3 eng

好用 300

韓玉賞鑒 3 nz

用法示例：

#encoding=utf-8
import sys
sys.path.append("../")
import jieba
jieba.load_userdict("userdict.txt")
import jieba.posseg as pseg

test_sent = "李小福是創新辦主任也是雲計算方面的專家;"
test_sent += "例如我輸入一個帶“韓玉賞鑒”的标題，在自定義詞庫中也增加了此詞為N類型"
words = jieba.cut(test_sent)
for w in words:
print w

result = pseg.cut(test_sent)

for w in result:
print w.word, "/", w.flag, ", ",

print "\n========"

terms = jieba.cut('easy_install is great')
for t in terms:
    print t
print '-------------------------'
terms = jieba.cut('python 的正規表達式是好用的')
for t in terms:
    print t

之前：

李小福 / 是 / 創新 / 辦 / 主任 / 也 / 是 / 雲 / 計算 / 方面 / 的 / 專家 /

加載自定義詞庫後：

李小福 / 是 / 創新辦 / 主任 / 也 / 是 / 雲計算 / 方面 / 的 / 專家 /

“通過使用者自定義詞典來增強歧義糾錯能力” — https://github.com/fxsjy/jieba/issues/14

功能 3) ：關鍵詞提取

jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse

說明

setence為待提取的文本

topK為傳回幾個TF/IDF權重最大的關鍵詞，預設值為20

代碼示例（關鍵詞提取）

import sys
sys.path.append('../')

import jieba
import jieba.analyse
from optparse import OptionParser

USAGE = "usage: python extract_tags.py [file name] -k [top k]"

parser = OptionParser(USAGE)
parser.add_option("-k", dest="topK")
opt, args = parser.parse_args()


if len(args) < :
    print USAGE
    sys.exit()

file_name = args[]

if opt.topK is None:
    topK = 
else:
    topK = int(opt.topK)

content = open(file_name, 'rb').read()

tags = jieba.analyse.extract_tags(content, topK=topK)

print ",".join(tags)

功能 4) : 詞性标注

标注句子分詞後每個詞的詞性，采用和ictclas相容的标記法

用法示例

>>> import jieba.posseg as pseg
>>> words = pseg.cut("我愛北京天安門")
>>> for w in words:
...    print w.word, w.flag
...

我 r 
 愛 v 
 北京 ns 
 天安門 ns

功能 5) : 并行分詞

原理：将目标文本按行分隔後，把各行文本配置設定到多個python程序并行分詞，然後歸并結果，進而獲得分詞速度的可觀提升

基于python自帶的multiprocessing子產品，目前暫不支援windows

用法：

jieba.enable_parallel(4) # 開啟并行分詞模式，參數為并行程序數

jieba.disable_parallel() # 關閉并行分詞模式

例子：

import urllib2
import sys,time
import sys
sys.path.append("../../")
import jieba
jieba.enable_parallel()

url = sys.argv[]
content = open(url,"rb").read()
t1 = time.time()
words = list(jieba.cut(content))

t2 = time.time()
tm_cost = t2-t1

log_f = open("1.log","wb")
for w in words:
print >> log_f, w.encode("utf-8"), "/" ,

print 'speed' , len(content)/tm_cost, " bytes/second"

實驗結果：在4核3.4GHz Linux機器上，對金庸全集進行精确分詞，獲得了1MB/s的速度，是單程序版的3.3倍。

其他詞典

占用記憶體較小的詞典檔案 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small

支援繁體分詞更好的詞典檔案 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big

下載下傳你所需要的詞典，然後覆寫jieba/dict.txt 即可或者用jieba.set_dictionary(‘data/dict.txt.big’)

子產品初始化機制的改變:lazy load （從0.28版本開始）

jieba采用延遲加載，”import jieba”不會立即觸發詞典的加載，一旦有必要才開始加載詞典建構trie。如果你想手工初始jieba，也可以手動初始化。

import jieba

jieba.initialize() # 手動初始化（可選）

在0.28之前的版本是不能指定主詞典的路徑的，有了延遲加載機制後，你可以改變主詞典的路徑:

jieba.set_dictionary(‘data/dict.txt.big’)

例子：

#encoding=utf-8
import sys
sys.path.append("../")
import jieba

def cuttest(test_sent):
result = jieba.cut(test_sent)
print " ".join(result)

def testcase():
cuttest("這是一個伸手不見五指的黑夜。我叫孫悟空，我愛北京，我愛Python和C++。")
cuttest("我不喜歡日本和服。")
cuttest("雷猴回歸人間。")
cuttest("工信處女幹事每月經過下屬科室都要親口交代24口交換機等技術性器件的安裝工作")
cuttest("我需要廉租房")
cuttest("永和服裝飾品有限公司")
cuttest("我愛北京天安門")
cuttest("abc")
cuttest("隐馬爾可夫")
cuttest("雷猴是個好網站")

if __name__ == "__main__":
testcase()
jieba.set_dictionary("foobar.txt")
print "================================"
testcase()

結巴分詞功能總結

下載下傳安裝結巴分詞

算法實作：

功能

功能1)：分詞

功能 2) ：添加自定義詞典

功能 3) ：關鍵詞提取

功能 4) : 詞性标注

功能 5) : 并行分詞

其他詞典

子產品初始化機制的改變:lazy load （從0.28版本開始）

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入