KNN近鄰分類

2023-08-06 06:54:12

from numpy import *
import operator
def createDataSet():#建立訓練集
    group=array([[,],[,],[,],[,]])
    labels=['A','A','B','B']
    return group,labels
def classify0(inX,dataSet,labels,k):
    #index為輸入 如[2,3],dataset為訓練樣本集,k為選擇最近鄰居的數目
    dataSetSize=dataSet.shape[]  #行數
    diffMat=tile(inX,(dataSetSize,))-dataSet
    sqDiffMat=diffMat**
    sqDistances=sqDiffMat.sum(axis=)#行向量相加
    distances=sqDistances**  #計算歐氏距離
    sortedDisIndicies=distances.argsort() #距離由小到大的數組索引值,
    classCount={}
    for i in range(k):
        voteIlabel=labels[sortedDisIndicies[i]] #統計前k個點所在類别出現的頻率
        classCount[voteIlabel]=classCount.get(voteIlabel,)+
        sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(),reverse=True)#按類别的頻率書降序排列
        return sortedClassCount[][]#排第一的類别
group,labels=createDataSet()
myclass=classify0([,],group,labels,)
print myclass

結果: B

# -*- coding:utf-8 -*-  
from numpy import *
import operator

def classify0(inX,dataSet,labels,k):
    #index為輸入 如[2,3],dataset為訓練樣本集,k為選擇最近鄰居的數目
    dataSetSize=dataSet.shape[]  #行數
    diffMat=tile(inX,(dataSetSize,))-dataSet
    sqDiffMat=diffMat**
    sqDistances=sqDiffMat.sum(axis=)#行向量相加
    distances=sqDistances**  #計算歐氏距離
    sortedDisIndicies=distances.argsort() #距離由小到大的數組索引值,
    classCount={}
    for i in range(k):
        voteIlabel=labels[sortedDisIndicies[i]] #統計前k個點所在類别出現的頻率
        classCount[voteIlabel]=classCount.get(voteIlabel,)+
        sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(),reverse=True)#按類别的頻率書降序排列
        return sortedClassCount[][]#排第一的類别

def file2matrix(filename):#資料處理
    fr=open(filename)
    arrayOfLines=fr.readlines()
    numberOfLines=len(arrayOfLines)
    returnMat=zeros((numberOfLines,))
    classLabelVector=[]
    i=
    for line in arrayOfLines:
        line=line.strip()
        listFromLine=line.split('\t')
        returnMat[i,:]=listFromLine[:]
        classLabelVector.append(int(listFromLine[-]))
        i=i+
    return returnMat,classLabelVector

def autoNorm(dataSet):#歸一化特征值
    minValues=dataSet.min()
    maxValues=dataSet.max()
    DValues=maxValues-minValues
    normDataSet=zeros(shape(dataSet))
    m=dataSet.shape[]
    normDataSet=dataSet-tile(minValues,(m,))
    normDataSet=normDataSet/tile (DValues,(m,))
    return normDataSet,DValues,minValues

def datingClassTest():#劃分訓練集和測試集
    hoRatio=#10%用于test
    datingDataMat,datingLabels=file2matrix('datingTestSet2.txt')
    normMat,Dvalues,minValues=autoNorm(datingDataMat)
    m=normMat.shape[]
    numTestVecs=int(m*hoRatio)
    errorCount=
    for i in range(numTestVecs):
        classifierResult=classify0(normMat[i,:],normMat[numTestVecs:,:],datingLabels[numTestVecs:],)
        print "the classifier comeback with:%d,the real answer is:%d"%(classifierResult,datingLabels[i])
        if(classifierResult!=datingLabels[i]):
            errorCount+=
    print "the total error rate is:%f"%(errorCount/float(numTestVecs))

KNN近鄰分類

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告