安裝jieba分詞庫
pip install jiaba
導入庫
import jieba
代碼
a=jieba.cut(data) print(type(a)) print(a)
傳回的是一個疊代器,是以需要加list()
data = '北京天安門我愛你' data1=data.encode('utf-8') print(type(data1)) a='...'.join(list(jieba.cut(data))) print(type(a)) print(a)
調用jieba分詞,先執行個體化一個轉換器,再調用fit_transform
完整代碼
def cut_word(a):
# data = '北京天安門我愛你'
# data1=data.encode('utf-8')
# print(type(data1))
# a='...'.join(list(jieba.cut(data)))
# print(type(a))
# print(a)
return '.'.join(list(jieba.cut(a)))
def cut_words():
word=["出現問題原因:與表示的是兩種資料類型,而上面出現問題的原因是對str字元串使用了解碼,顯然是豬頭不對馬尾。"]
new_word=[]
for i in word:
new_word.append(cut_word(i))
print(new_word)
# 1.執行個體化一個轉換器
transfor=CountVectorizer(stop_words=["str"])#停用詞必須放在一個清單裡面
# 2.調用fit_transform
new_word=transfor.fit_transform(new_word)
print("new_data\n",new_word.toarray())#統計每個特征詞出現的總數
print("特征名字\n",transfor.get_feature_names())
if __name__=="__main__":
cut_words()
結果