KNN算法--基本分类和回归方法

2023-08-07 22:49:47

KNN算法--基本分类和回归方法。

1. 是什么

给定一个训练数据集(test_set)

对新的输入实例

在训练集(train_set)中找到与该实例距离最近的k个数据集

这k个数据集的大多数属于哪个类型的，那么这个实例就是那个分类。如图一所示

KNN算法--基本分类和回归方法

举一个不恰当的例子：如果你的身边都是百万富翁，那你的资产大概率也不少。

2. k值的选取以及影响

KNN算法--基本分类和回归方法

2.1 k值过小，导致过拟合

如图所示,当k值选择最小为1时，五边形直接属于黑色，但你从感官上看五边形应该属于方块啊。这就是过拟合。

2.2 k值过大，模型简单，预测失误

极端的例子：选取整个训练集的长度为k值。你会发现五边形永远属于个数最多的类别。

2.3 特征归一化

首先我们先来看这样一个例子： 5个训练样本：

| 序号 | 身高 | 体重 | 分类 | | :---: | :---: | :---: | :---: | | 1 | 179 | 42 | 男 | | 2 | 178 | 43 | 男 | | 3 | 165 | 36 | 女 | | 4 | 177 | 42 | 男 | | 5 | 160 | 35 | 女 |

给出测试样本： 6(167，43)

选定k=3 计算距离：

6-1=$$\sqrt{145}$$

6-2=$$\sqrt{121}$$

6-3=$$\sqrt{53}$$

6-4=$$\sqrt{101}$$

6-5=$$\sqrt{103}$$

由此发现最近的为3，4，5。因为两女一男，我们推断样本属于女。但是你会发现一个女性的脚为43码远远小于男性的脚为43码，

这里就是因为身高的数值比脚的数值大或者说是量纲大。因此导致身高的重要性远远大于脚码。这也就是归一化的原因。

数据归一化的处理方式有很多，比如：0-1标准化，Z-score标准化，Sigmoid压缩法。这里介绍一个比较简单的0-1标准化，公式：

MIN为改特征下的最小值，如身高的MIN为160；

MAX为该特征下的最大值，如身高的MAX为179

$$x_normalization=\frac{x-MIN}{MAX-MIN}$$

上面的测试数据经过0-1标准归一化变为

| 序号 | 身高 | 体重 | 分类 | | :---: | :---: | :---: | :---: | | 1 | 1 | 0.875 | 男 | | 2 | 0.95 | 1 | 男 | | 3 | 0.26 | 0.125 | 女 | | 4 | 0.89 | 0.875 | 男 | | 5 | 0 | 0 | 女 |

举例身高：

1=$$\frac{179-160}{179-160}$$=1 2=$$\frac{179-160}{179-160}$$=0.95

体重

1=1=$$\frac{42-35}{43-35}$$=0.875

距离的度量

主要包括以下几种度量方式

KNN算法--基本分类和回归方法

案例-预测癌症

预测癌症

KNN算法--基本分类和回归方法

1. 是什么

2. k值的选取以及影响

2.1 k值过小，导致过拟合

2.2 k值过大，模型简单，预测失误

2.3 特征归一化

距离的度量

案例-预测癌症

继续阅读

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

笔试面试题目：滑动窗口(二)

27. Remove Element(列表)题目代码

数据结构与算法（27）——排序（二）

无人机--飞控科普

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入

hdu7108哈希