根据数据将客户分类成不同客户群，并评价这些客户群的价值。

数据示例

部分餐饮客户的消费行为特征数据如下：

R最近一次消费时间间隔

F消费频率

M消费总金额

[Python聚类] K-Means聚类算法分类数据示例方法代码实现结果分析

方法

采用K-Means聚类算法，设定聚类个数为3，最大迭代次数为500次，距离函数取欧式距离。

代码实现

#-*- coding: utf-8 -*-
#使用K-Means算法聚类消费行为特征数据

import pandas as pd

#参数初始化
inputfile = '../data/consumption_data.xls' #销量及其他属性数据
outputfile = '../tmp/data_type.xls' #保存结果的文件名
k =  #聚类的类别
iteration =  #聚类最大循环次数
data = pd.read_excel(inputfile, index_col = 'Id') #读取数据
data_zs = *(data - data.mean())/data.std() #数据标准化

from sklearn.cluster import KMeans
model = KMeans(n_clusters = k, n_jobs = , max_iter = iteration) #分为k类，并发数4
model.fit(data_zs) #开始聚类

#简单打印结果
r1 = pd.Series(model.labels_).value_counts() #统计各个类别的数目
r2 = pd.DataFrame(model.cluster_centers_) #找出聚类中心
r = pd.concat([r2, r1], axis = ) #横向连接（axis=0是纵向），得到聚类中心对应的类别下的数目
r.columns = list(data.columns) + [u'类别数目'] #重命名表头
print(r)

#详细输出原始数据及其类别
r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = )  #详细输出每个样本对应的类别
r.columns = list(data.columns) + [u'聚类类别'] #重命名表头
r.to_excel(outputfile) #保存结果


def density_plot(data): #自定义作图函数
  import matplotlib.pyplot as plt
  plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
  plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
  p = data.plot(kind='kde', linewidth = , subplots = True, sharex = False) 
  #data有3列，所以有3个子图，p[0],p[1],p[2]
  [p[i].set_ylabel(u'密度') for i in range(k)] #设置子y轴标签（默认为density）
  plt.legend()
  return plt

#作出类别1、类别2和类别3的概率密度图，并保存
pic_output = '../tmp/pd_' #概率密度图文件名前缀
for i in range(k):
  density_plot(data[r[u'聚类类别']==i]).savefig(u'%s%s.png' %(pic_output, i))   #r[u'聚类类别']==i结果为布尔值

结果分析

[Python聚类] K-Means聚类算法分类数据示例方法代码实现结果分析

分群1的概率密度函数图

分群1特点：R间隔相对较小，主要集中在0-30天；消费次数集中在10-25次；消费金额在500-2000。

[Python聚类] K-Means聚类算法分类数据示例方法代码实现结果分析

分群2的概率密度函数图

分群2特点：R间隔主要分布在0-30天；消费次数集中在0-12次；消费金额在0-1800。

[Python聚类] K-Means聚类算法分类数据示例方法代码实现结果分析

分群3的概率密度函数图

分群3特点：R间隔主要分布在30-80天；消费次数集中在0-15次；消费金额在0-2000。

对比分析

分群1时间间隔较短，消费次数多，而且消费金额较大，是高消费、高价值人群。

分群2的时间间隔、消费次数和消费金额处于中等水平，代表着一般客户。

分群3的时间间隔较长，消费次数较少，消费金额也不是特别高，是价值较低的客户群体。

[Python聚类] K-Means聚类算法分类数据示例方法代码实现结果分析

数据示例

方法

代码实现

结果分析

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入