无监督学习的定义就不多说了,不懂得可以google。因为项目需要,需要进行无监督的分类学习。
K-means里面的K指的是将数据分成的份数,基本上用的就是算距离的方法。
大致的思路就是给定一个矩阵,假设K的值是2,也就是分成两个部分,那么我们首先确定两个质心。一开始是找矩阵每一列的最大值max,最小值min,算出range=max-min,然后设质心就是min+range*random。之后在逐渐递归跟进,其实要想明白还是要跟一遍代码,自己每一步都输出一下看看跟自己想象的是否一样。
(顺便吐槽一下,网上好多人在写文章的事后拿了书上的代码就粘贴上,也不管能不能用,博主改了一下午才改好。。。,各种bug)
用的时候直接看最后的main,dataSet是数据集输入,我会在下载地址提供给大家。
kmeans函数第一个参数是输入矩阵、第二个是K的值,也就是分几份。
plotBestFit是画图函数,需要加plot库,而且目前只支持二维且K=2的情况。
里面黑色的大点是两个质心,怎么样,效果还可以吧!

测试的时候一定要多用一点数据才会明显。
我的github地址https://github.com/jimenbian,喜欢就点个starO(∩_∩)O哈!
/********************************
* 本文来自博客 “李博Garvin“
******************************************/