天天看點

基于sklearn的文本特征提取與分類

題目是80萬條短信作為訓練資料,10%的垃圾短信(label = 1),90%正常短信(label = 0),然後在20萬條資料作為測試對象,找出垃圾短信與正常短信。我最終的評分是0.985,相對于第一0.997還是有很大差距,排名59/339。具體競賽内容可以參考中國好創意比賽官網。

文本分類大緻可以分為:出本處理,特征提取,特征選擇,分類,預測幾個步驟,其中前三步占用80%的工作量。

1.文本處理

分詞,去除停用詞等。文本處理要做的内容很多,如果需要請參考其他文獻。

去除停用詞需要根據實際情況作考慮,一般情況是需要的。

文本處理後,得到的應該是每條短信對應的分詞表,如:原”商業秘密的秘密性那是維系其商業價值和壟斷地位的前提條件之一“經過處理後為”商業秘密 秘密性 維系 商業價值 壟斷 地位 前提條件 之一 “

核心代碼:

2.特征提取,特征選擇

核心代碼舉例,具體參考附錄的完整工程:

3.分類,預測

這個不多說,常見的方法就那麼幾種,相差不會很大。如果需要達到很高的分數還需要算法上的修改優化。