樸素貝葉斯---過濾垃圾郵件

2023-07-02 10:38:09

在bayes.py中添加

#樸素貝葉斯詞袋模型
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = []*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 
    return returnVec

#解析文本
def textParse(bigString):
    import re
    listOfTokens = re.split(r'\W*', bigString)  #除掉标點符号，保留單詞
    return [tok.lower() for tok in listOfTokens if len(tok) > ]   #傳回長度大于2，小寫後的單詞

#垃圾郵件測試函數
def spamTest():
    #導入并解析文本
    docList = []; classList = []; fullText = []
    for i in range(, ):
        wordList = textParse(open('email/spam/%d.txt' %i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append()
        wordList = textParse(open('email/ham/%d.txt' %i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append()
    vocabList = createVocabList(docList)   #解析為詞清單
    trainingSet = range(); testSet = []  #建立訓練集、測試集，訓練集初始化為一個整數清單
    #随機建構訓練集
    for i in range():  #50封郵件中，随機選取10封作為測試集
        randIndex = int(random.uniform(, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])  #從訓練集中删除
    trainMat = []; trainClasses = []
    for docIndex in trainingSet:  #循環周遊訓練集
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))  #對每封郵件基于詞彙表建構詞向量
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))  #計算分類所需的機率
    errorCount = 
    #對測試集分類
    for docIndex in testSet:
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 
            print "classification error", docList[docIndex]
    print 'the error rate is : ', float(errorCount / len(testSet))

測試：

>>> import bayes
>>> spamTest()
the error rate is :  
>>>

樸素貝葉斯---過濾垃圾郵件

繼續閱讀

中文文本分類（機器學習算法原理與程式設計實踐筆記）

Python實作樸素貝葉斯分類器1.樸素貝葉斯概念2.樸素貝葉斯算法

《西瓜書》筆記03：線性模型之線性回歸（1）1. 基本形式2. 線性回歸

tensorflows十五再探Momentum和Nesterov's accelerated gradient descent 利用自動控制PID概念引入誤差微分控制超參數改進NAGD，速度快波動小

線性回歸的幾種評價方法四、平均絕對百分比（MAPE)五、相關系數（R）

無人駕駛五使用pure pursuit實作無人車軌迹追蹤（python）

py2.7 : 《機器學習實戰》決策樹 12.5:構造注解樹

k-means算法Python實作

［機器學習筆記］EM算法

斯坦福ML公開課筆記13B-因子分析模型及其EM求解

機器學習基礎（二）——機率論與數理統計

matlab機率及數理統計學習-T檢驗、卡方檢驗、直方圖分布檢驗

JupyterNotebook更改預設存儲路徑

交叉熵損失函數的了解