樸素貝葉斯法(Naive Bayes)
Naive Bayes的算法原理簡單,不多加贅述。
參考博文:https://blog.csdn.net/AMDS123/article/details/70173402
關鍵:假設特征獨立。
樸素貝葉斯代碼實作
見博文:https://blog.csdn.net/lsldd/article/details/41542107
from matplotlib import pyplot
import scipy as sp
import numpy as np
from sklearn.datasets import load_files
from sklearn.cross_validation import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import classification_report
'''
movie_reviews = load_files('data')
#儲存
sp.save('movie_data.npy', movie_reviews.data)
sp.save('movie_target.npy', movie_reviews.target)
'''
#讀取
movie_data = sp.load('movie_data.npy')
movie_target = sp.load('movie_target.npy')
x = movie_data
y = movie_target
#BOOL型特征下的向量空間模型,注意,測試樣本調用的是transform接口
count_vec = TfidfVectorizer(binary = False, decode_error = 'ignore',\
stop_words = 'english')
#加載資料集,切分資料集80%訓練,20%測試
x_train, x_test, y_train, y_test\
= train_test_split(movie_data, movie_target, test_size = 0.2)
x_train = count_vec.fit_transform(x_train)
x_test = count_vec.transform(x_test)
#調用MultinomialNB分類器
clf = MultinomialNB().fit(x_train, y_train)
doc_class_predicted = clf.predict(x_test)
#print(doc_class_predicted)
#print(y)
print(np.mean(doc_class_predicted == y_test))
#準确率與召回率
precision, recall, thresholds = precision_recall_curve(y_test, clf.predict(x_test))
answer = clf.predict_proba(x_test)[:,1]
report = answer > 0.5
print(classification_report(y_test, report, target_names = ['neg', 'pos']))
輸出結果如下所示:
precision recall f1-score support
neg 0.78 0.87 0.83 135
pos 0.87 0.77 0.82 145
avg / total 0.83 0.82 0.82 280
如果進行多次交叉檢驗,可以發現樸素貝葉斯分類器在這個資料集上能夠達到80%以上的準确率。如果你親自測試一下,會發現KNN分類器在該資料集上隻能達到60%的準确率,相信你對樸素貝葉斯分類器應該能夠刮目相看了。而且要知道,情感分類這種帶有主觀色彩的分類準則,連人類都無法達到100%準确。
要注意的是,我們選用的樸素貝葉斯分類器類别:MultinomialNB,這個分類器以出現次數作為特征值,我們使用的TF-IDF也能符合這類分布。
其他的樸素貝葉斯分類器如GaussianNB适用于高斯分布(正态分布)的特征,而BernoulliNB适用于伯努利分布(二值分布)的特征。