利用jieba分詞進行中文文本特征抽取

2023-08-07 00:36:25

安裝jieba分詞庫

pip install jiaba

導入庫

import jieba

代碼

a=jieba.cut(data)
print(type(a))
print(a)

利用jieba分詞進行中文文本特征抽取

傳回的是一個疊代器，是以需要加list()

data = '北京天安門我愛你'
data1=data.encode('utf-8')
print(type(data1))
a='...'.join(list(jieba.cut(data)))
print(type(a))
print(a)

利用jieba分詞進行中文文本特征抽取

調用jieba分詞，先執行個體化一個轉換器，再調用fit_transform

完整代碼

def cut_word(a):
    # data = '北京天安門我愛你'
    # data1=data.encode('utf-8')
    # print(type(data1))
    # a='...'.join(list(jieba.cut(data)))
    # print(type(a))
    # print(a)

    return '.'.join(list(jieba.cut(a)))

def cut_words():
    word=["出現問題原因：與表示的是兩種資料類型，而上面出現問題的原因是對str字元串使用了解碼，顯然是豬頭不對馬尾。"]
    new_word=[]
    for i in word:
        new_word.append(cut_word(i))
    print(new_word)
    # 1.執行個體化一個轉換器
    transfor=CountVectorizer(stop_words=["str"])#停用詞必須放在一個清單裡面
    # 2.調用fit_transform
    new_word=transfor.fit_transform(new_word)
    print("new_data\n",new_word.toarray())#統計每個特征詞出現的總數
    print("特征名字\n",transfor.get_feature_names())
if __name__=="__main__":
    cut_words()

結果

利用jieba分詞進行中文文本特征抽取

利用jieba分詞進行中文文本特征抽取

安裝jieba分詞庫

導入庫

代碼

完整代碼

繼續閱讀

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入