天天看點

利用jieba分詞進行中文文本特征抽取

安裝jieba分詞庫

pip install jiaba

 導入庫

import jieba

代碼

a=jieba.cut(data)
print(type(a))
print(a)      
利用jieba分詞進行中文文本特征抽取

 傳回的是一個疊代器,是以需要加list()

data = '北京天安門我愛你'
data1=data.encode('utf-8')
print(type(data1))
a='...'.join(list(jieba.cut(data)))
print(type(a))
print(a)      
利用jieba分詞進行中文文本特征抽取

 調用jieba分詞,先執行個體化一個轉換器,再調用fit_transform

 完整代碼

def cut_word(a):
    # data = '北京天安門我愛你'
    # data1=data.encode('utf-8')
    # print(type(data1))
    # a='...'.join(list(jieba.cut(data)))
    # print(type(a))
    # print(a)

    return '.'.join(list(jieba.cut(a)))

def cut_words():
    word=["出現問題原因:與表示的是兩種資料類型,而上面出現問題的原因是對str字元串使用了解碼,顯然是豬頭不對馬尾。"]
    new_word=[]
    for i in word:
        new_word.append(cut_word(i))
    print(new_word)
    # 1.執行個體化一個轉換器
    transfor=CountVectorizer(stop_words=["str"])#停用詞必須放在一個清單裡面
    # 2.調用fit_transform
    new_word=transfor.fit_transform(new_word)
    print("new_data\n",new_word.toarray())#統計每個特征詞出現的總數
    print("特征名字\n",transfor.get_feature_names())
if __name__=="__main__":
    cut_words()
           

 結果

利用jieba分詞進行中文文本特征抽取