根据数据将客户分类成不同客户群,并评价这些客户群的价值。
数据示例
部分餐饮客户的消费行为特征数据如下:
R最近一次消费时间间隔
F消费频率
M消费总金额

方法
采用K-Means聚类算法,设定聚类个数为3,最大迭代次数为500次,距离函数取欧式距离。
代码实现
#-*- coding: utf-8 -*-
#使用K-Means算法聚类消费行为特征数据
import pandas as pd
#参数初始化
inputfile = '../data/consumption_data.xls' #销量及其他属性数据
outputfile = '../tmp/data_type.xls' #保存结果的文件名
k = #聚类的类别
iteration = #聚类最大循环次数
data = pd.read_excel(inputfile, index_col = 'Id') #读取数据
data_zs = *(data - data.mean())/data.std() #数据标准化
from sklearn.cluster import KMeans
model = KMeans(n_clusters = k, n_jobs = , max_iter = iteration) #分为k类,并发数4
model.fit(data_zs) #开始聚类
#简单打印结果
r1 = pd.Series(model.labels_).value_counts() #统计各个类别的数目
r2 = pd.DataFrame(model.cluster_centers_) #找出聚类中心
r = pd.concat([r2, r1], axis = ) #横向连接(axis=0是纵向),得到聚类中心对应的类别下的数目
r.columns = list(data.columns) + [u'类别数目'] #重命名表头
print(r)
#详细输出原始数据及其类别
r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = ) #详细输出每个样本对应的类别
r.columns = list(data.columns) + [u'聚类类别'] #重命名表头
r.to_excel(outputfile) #保存结果
def density_plot(data): #自定义作图函数
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
p = data.plot(kind='kde', linewidth = , subplots = True, sharex = False)
#data有3列,所以有3个子图,p[0],p[1],p[2]
[p[i].set_ylabel(u'密度') for i in range(k)] #设置子y轴标签(默认为density)
plt.legend()
return plt
#作出类别1、类别2和类别3的概率密度图,并保存
pic_output = '../tmp/pd_' #概率密度图文件名前缀
for i in range(k):
density_plot(data[r[u'聚类类别']==i]).savefig(u'%s%s.png' %(pic_output, i)) #r[u'聚类类别']==i结果为布尔值
结果分析
分群1的概率密度函数图
分群1特点:R间隔相对较小,主要集中在0-30天;消费次数集中在10-25次;消费金额在500-2000。
分群2的概率密度函数图
分群2特点:R间隔主要分布在0-30天;消费次数集中在0-12次;消费金额在0-1800。
分群3的概率密度函数图
分群3特点:R间隔主要分布在30-80天;消费次数集中在0-15次;消费金额在0-2000。
对比分析
分群1时间间隔较短,消费次数多,而且消费金额较大,是高消费、高价值人群。
分群2的时间间隔、消费次数和消费金额处于中等水平,代表着一般客户。
分群3的时间间隔较长,消费次数较少,消费金额也不是特别高,是价值较低的客户群体。