天天看点

[Python聚类] K-Means聚类算法分类数据示例方法代码实现结果分析

根据数据将客户分类成不同客户群,并评价这些客户群的价值。

数据示例

部分餐饮客户的消费行为特征数据如下:

R最近一次消费时间间隔

F消费频率

M消费总金额

[Python聚类] K-Means聚类算法分类数据示例方法代码实现结果分析

方法

采用K-Means聚类算法,设定聚类个数为3,最大迭代次数为500次,距离函数取欧式距离。

代码实现

#-*- coding: utf-8 -*-
#使用K-Means算法聚类消费行为特征数据

import pandas as pd

#参数初始化
inputfile = '../data/consumption_data.xls' #销量及其他属性数据
outputfile = '../tmp/data_type.xls' #保存结果的文件名
k =  #聚类的类别
iteration =  #聚类最大循环次数
data = pd.read_excel(inputfile, index_col = 'Id') #读取数据
data_zs = *(data - data.mean())/data.std() #数据标准化

from sklearn.cluster import KMeans
model = KMeans(n_clusters = k, n_jobs = , max_iter = iteration) #分为k类,并发数4
model.fit(data_zs) #开始聚类

#简单打印结果
r1 = pd.Series(model.labels_).value_counts() #统计各个类别的数目
r2 = pd.DataFrame(model.cluster_centers_) #找出聚类中心
r = pd.concat([r2, r1], axis = ) #横向连接(axis=0是纵向),得到聚类中心对应的类别下的数目
r.columns = list(data.columns) + [u'类别数目'] #重命名表头
print(r)

#详细输出原始数据及其类别
r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = )  #详细输出每个样本对应的类别
r.columns = list(data.columns) + [u'聚类类别'] #重命名表头
r.to_excel(outputfile) #保存结果


def density_plot(data): #自定义作图函数
  import matplotlib.pyplot as plt
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  p = data.plot(kind='kde', linewidth = , subplots = True, sharex = False) 
  #data有3列,所以有3个子图,p[0],p[1],p[2]
  [p[i].set_ylabel(u'密度') for i in range(k)] #设置子y轴标签(默认为density)
  plt.legend()
  return plt

#作出类别1、类别2和类别3的概率密度图,并保存
pic_output = '../tmp/pd_' #概率密度图文件名前缀
for i in range(k):
  density_plot(data[r[u'聚类类别']==i]).savefig(u'%s%s.png' %(pic_output, i))   #r[u'聚类类别']==i结果为布尔值
           

结果分析

[Python聚类] K-Means聚类算法分类数据示例方法代码实现结果分析

分群1的概率密度函数图

分群1特点:R间隔相对较小,主要集中在0-30天;消费次数集中在10-25次;消费金额在500-2000。

[Python聚类] K-Means聚类算法分类数据示例方法代码实现结果分析

分群2的概率密度函数图

分群2特点:R间隔主要分布在0-30天;消费次数集中在0-12次;消费金额在0-1800。

[Python聚类] K-Means聚类算法分类数据示例方法代码实现结果分析

分群3的概率密度函数图

分群3特点:R间隔主要分布在30-80天;消费次数集中在0-15次;消费金额在0-2000。

对比分析

分群1时间间隔较短,消费次数多,而且消费金额较大,是高消费、高价值人群。

分群2的时间间隔、消费次数和消费金额处于中等水平,代表着一般客户。

分群3的时间间隔较长,消费次数较少,消费金额也不是特别高,是价值较低的客户群体。