函数说明:
1. .hist 对于Dataframe格式的数据,我们可以使用.hist直接画出直方图
对于一些像年龄和工资一样的连续数据,我们可以对其进行分段标记处理,使得这些连续的数据变成离散化
就好比:我们可以将0-9岁用0表示
10-19用1表示
20-29用2表示
...
下面我们对一个年龄数据进行了分段标记处理
代码:
第一步:导入数据
第二步:对年龄特征使用.hist画出直方图,直方图本身也是一个分段的过程
第三步:使用np.floor(/10)取整,将比如5岁的年龄计算后为0
第四步:将特征放入原数据中,进行展示
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# 第一步
fcc_survey_df = pd.read_csv('datasets/fcc_2016_coder_survey_subset.csv')
# 对年龄特征进行分段标记:比如0-9分为0, 10-19为1....
# 先对年龄字典画直方图,直方图本身也是一种分段过程
# 第二步
fig, ax = plt.subplots()
fcc_survey_df['Age'].hist(color='#A9C5D3')
ax.set_xlabel('Age')
ax.set_ylabel('Frequency')
ax.set_title('Age bins')
plt.show()

# 第三步我们使用/10取整对年龄字段进行分段处理
Age_bins = np.floor(fcc_survey_df['Age'].values / 10)
# 第四步:将列表放入原数据中进行展示
fcc_survey_df['Age_bins'] = Age_bins
print(fcc_survey_df[['Age', 'Age_bins']].head())
随机推荐
Excel——将内容导出
using (FileStream fsRead = File.OpenRead("111.xls")) { IWorkbook wk = new HSSFWorkbook(fsR ...
asp.net mvc 实现博客的时间分类管理
先看效果 这个其实用c#实现起来比较简单: Sides = bllSession.IArticleBLL.GetList("") .Select(a => a.Time) . ...
linux设置语言编码
前段时间在服务器上安装了centos6.2版本,当初安装时语言选择英文.这本来也没有什么问题,直到前一段时间.我的同事发现部署的web项目中出现乱码情况.但中文作为参数进行传递到下一个页面的时候就乱码 ...
深入理解linux网络技术内幕读书笔记(八)--设备注册与初始化
Table of Contents 1 设备注册之时 2 设备除名之时 3 分配net_device结构 4 NIC注册和除名架构 4.1 注册 4.2 除名 5 设备初始化 6 设备类型初始化: x ...
Eclipse连接SQL Server 2008数据库 以及问题总结
Eclipse中使用SQL server 2008数据库 一.准备材料 要能够使用数据库就要有相应的JDBC,所以我们要去Microsoft官网下载 https://www.microsoft.com ...
Java_接口与抽象类
接口: 接口,英文interface,在java中,泛指供别人调用的方法或函数.接口是对行为的一种抽象. 语法: [public] interface InterfaceName{} 注意: 1)接口 ...
Python的hasattr(),getattr(),setattr()
今天读到源码时遇到了setattr()和getattr()两方法,给忘了,重新回顾一下吧! 1. hasattr(object, name) 判断object里是否有name属性,有就返回True,没 ...
Python中常用的模块
模块,用一砣代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来,可能需要多个函数才 ...
Session机制三(表单的重复提交)
1.表单的重复提交的情况 在表单提交到一个servlet,而servlet又通过请求转发的方式响应了一个JSP页面,这个时候地址栏还保留这servlet的那个路径,在响应页面点击刷新. 在响应页面没有 ...