文本分類（1）——分詞&去停用詞&取名詞

2023-07-16 17:26:32

考完試了，然後總結一下。。因為時間有些久，我記不清都參考過哪些了

分詞

就直接用的jieba。老師的要求是留名詞，我就隻留了名詞（Ps.别的詞性還是可以留的）

import os
import jieba.posseg as  pseg
import jieba
import  codecs
import myIO
def load_stopwords():
    # 讀取停用詞表
    f = open('C:/lyr/DM/stop_words_ch.txt')
    sw = [line.strip() for line in f]
    return sw
        
def cut_words(label, file_list, file_path, cut_dir):
    print('Run task (%s)...' % (os.getpid()))
    for j, file_name in enumerate(file_list):
        fullpath = file_path + file_name
        content = myIO.readfile(fullpath)
        content = content.replace('\r\n'.encode('utf-8'),''.encode('utf-8')).strip()
        content = content.replace(' '.encode('utf-8'),''.encode('utf-8')).strip()
        content_seg = pseg.cut(content)
        _write_noun(file_name, content_seg, cut_dir)
 
 
def _write_noun(file_name, content_seg, cut_words_path):
    # 這裡也許可以試試set然後用pickle來存python對象
    fullpath = cut_words_path + file_name
    stop_words = load_stopwords()
    result_seg=''
    noun = ['n', 'ns', 'nt', 'nz', 'nx']  
    for word, flag in content_seg:
        if word in stop_words:
                continue       
        if flag in noun:
                result_seg=result_seg+word+' '
    myIO.savefile(fullpath, result_seg.encode('utf-8')) 

def gen_save_words(source_path, cut_path):
    path_list = os.listdir(source_path)
    for i, mydir in enumerate(path_list):
        print(mydir)
        file_path = source_path + mydir + '/'
        cut_dir = cut_path + mydir + '/'
        if not os.path.exists(cut_dir):
            os.makedirs(cut_dir)
        file_list = os.listdir(file_path)
        # 進行分詞
        cut_words(mydir, file_list, file_path, cut_dir)


source_path='C:/lyr/DM/trainData/'
cut_path='C:/lyr/DM/train_cut/'
gen_save_words(source_path,cut_path)

文本分類（1）——分詞&去停用詞&取名詞

分詞

繼續閱讀

NLP之文本分類文本表示特征權重計算方法分類器設計文本分類評測名額

NLP實踐四：樸素貝葉斯實作文本分類

學霸筆記：中國小英語16種時态的不同用法以及動詞使用形式。把這些文法時态放到一起就更容易差別和記憶了。同學們在學習的過程

分詞、去停用詞分詞、去停用詞

【360智腦App現已登陸蘋果AppStore】AI奇點網7月24日報道丨360公司旗下AI大語言模型的移動端應用産品”

教輔推薦：國小必刷題。大家好，今天為大家推薦一本國小必刷題。這是一本能夠幫助基礎較好的孩子提升成績的練習冊。從題目結構來

确立整體的設計思路，從塞尚繪畫的結構、色彩、造型上進行歸納總結。把多幅繪畫作品分為風景圖和景物圖兩大類别。通過前期整理的

利用python,基于SVM實作文本分類

阿裡few shot learning文章的個人了解

深度學習在文本分類中的應用

深度學習與文本分類總結

大規模文本分類參考（轉發）大規模文本分類實踐-知乎看山杯總結賽題簡述不同網絡結構的了解與回顧得分最高的單模型：RCNN+ATTENTION總結與反思

CNN文本分類原理講解與實戰

文本分類之詞向量平均模型 Word Average Model

文本分類之 residual-connection+selfAttention的詞向量平均模型

SVM支援向量機二（Lagrange Duality）SVM支援向量機二（Lagrange Duality）

文本分類（1）——分詞&amp;去停用詞&amp;取名詞

分詞

繼續閱讀

文本分類（1）——分詞&去停用詞&取名詞