天天看點

NLP--jieba(1)1.基本分詞函數與用法jieba.lcut以及jieba.lcut_for_search直接傳回 list添加使用者自定義詞典

文章目錄

  • 1.基本分詞函數與用法
  • jieba.lcut以及jieba.lcut_for_search直接傳回 list
  • 添加使用者自定義詞典

1.基本分詞函數與用法

jieba.cut 以及 jieba.cut_for_search 傳回的結構都是一個可疊代的 generator,可以使用 for 循環來獲得分詞後得到的每一個詞語(unicode)

jieba.cut 方法接受三個輸入參數:

  • 需要分詞的字元串
  • cut_all 參數用來控制是否采用全模式
  • HMM 參數用來控制是否使用 HMM 模型

jieba.cut_for_search 方法接受兩個參數

  • 需要分詞的字元串
  • 是否使用 HMM 模型。

    該方法适合用于搜尋引擎建構反向索引的分詞,粒度比較細

import jieba

seg_list=jieba.cut("我在學習自然語言處理",cut_all=True)
print(seg_list)
print("Full Mode:"+"/".join(seg_list)) #全模式
seg_list1=jieba.cut('我在學習自然語言處理',cut_all=False)
print("Default Mode:"+"/".join(seg_list1)) #精确模式
seg_list2 = jieba.cut("他畢業于上海交通大學,在百度深度學習研究院進行研究")  # 預設是精确模式
print(", ".join(seg_list2))
seg_list = jieba.cut_for_search("小明碩士畢業于中國科學院計算所,後在哈佛大學深造")  # 搜尋引擎模式
print(", ".join(seg_list))

Full Mode: 我/ 在/ 學習/ 自然/ 自然語言/ 語言/ 處理
Default Mode: 我/ 在/ 學習/ 自然語言/ 處理
他, 畢業, 于, 上海交通大學, ,, 在, 百度, 深度, 學習, 研究院, 進行, 研究
小明, 碩士, 畢業, 于, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, ,, 後, 在, 哈佛, 大學, 哈佛大學, 深造
           

jieba.lcut以及jieba.lcut_for_search直接傳回 list

result_lcut = jieba.lcut("小明碩士畢業于中國科學院計算所,後在哈佛大學深造")
print(result_lcut)
print(" ".join(result_lcut))
print( " ".join(jieba.lcut_for_search("小明碩士畢業于中國科學院計算所,後在哈佛大學深造")))

[u'\u5c0f\u660e', u'\u7855\u58eb', u'\u6bd5\u4e1a', u'\u4e8e', u'\u4e2d\u56fd\u79d1\u5b66\u9662', u'\u8ba1\u7b97\u6240', u'\uff0c', u'\u540e', u'\u5728', u'\u54c8\u4f5b\u5927\u5b66', u'\u6df1\u9020']
小明 碩士 畢業 于 中國科學院 計算所 , 後 在 哈佛大學 深造
小明 碩士 畢業 于 中國 科學 學院 科學院 中國科學院 計算 計算所 , 後 在 哈佛 大學 哈佛大學 深造

           

添加使用者自定義詞典

很多時候我們需要針對自己的場景進行分詞,會有一些領域内的專有詞彙。

  • 可以用jieba.load_userdict(file_name)加載使用者字典
  • 少量的詞彙可以自己用下面方法手動添加:
    • 用 add_word(word, freq=None, tag=None) 和 del_word(word) 在程式中動态修改詞典
    • 用 suggest_freq(segment, tune=True) 可調節單個詞語的詞頻,使其能(或不能)被分出來
print('/'.join(jieba.cut('如果放到舊字典中将出錯。', HMM=False)))
如果/放到/舊/字典/中将/出錯/。
jieba.suggest_freq(('中', '将'), True)
494
print('/'.join(jieba.cut('如果放到舊字典中将出錯。', HMM=False)))
如果/放到/舊/字典/中/将/出錯/
           
NLP

繼續閱讀