天天看点

python连续数据离散化_机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)...

函数说明:

1. .hist 对于Dataframe格式的数据,我们可以使用.hist直接画出直方图

对于一些像年龄和工资一样的连续数据,我们可以对其进行分段标记处理,使得这些连续的数据变成离散化

就好比:我们可以将0-9岁用0表示

10-19用1表示

20-29用2表示

...

下面我们对一个年龄数据进行了分段标记处理

代码:

第一步:导入数据

第二步:对年龄特征使用.hist画出直方图,直方图本身也是一个分段的过程

第三步:使用np.floor(/10)取整,将比如5岁的年龄计算后为0

第四步:将特征放入原数据中,进行展示

import pandas as pd

import matplotlib.pyplot as plt

import numpy as np

# 第一步

fcc_survey_df = pd.read_csv('datasets/fcc_2016_coder_survey_subset.csv')

# 对年龄特征进行分段标记:比如0-9分为0, 10-19为1....

# 先对年龄字典画直方图,直方图本身也是一种分段过程

# 第二步

fig, ax = plt.subplots()

fcc_survey_df['Age'].hist(color='#A9C5D3')

ax.set_xlabel('Age')

ax.set_ylabel('Frequency')

ax.set_title('Age bins')

plt.show()

python连续数据离散化_机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)...

# 第三步我们使用/10取整对年龄字段进行分段处理

Age_bins = np.floor(fcc_survey_df['Age'].values / 10)

# 第四步:将列表放入原数据中进行展示

fcc_survey_df['Age_bins'] = Age_bins

print(fcc_survey_df[['Age', 'Age_bins']].head())

python连续数据离散化_机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)...

随机推荐

Excel——将内容导出

using (FileStream fsRead = File.OpenRead("111.xls")) { IWorkbook wk = new HSSFWorkbook(fsR ...

asp.net mvc 实现博客的时间分类管理

先看效果 这个其实用c#实现起来比较简单: Sides = bllSession.IArticleBLL.GetList("") .Select(a => a.Time) . ...

linux设置语言编码

前段时间在服务器上安装了centos6.2版本,当初安装时语言选择英文.这本来也没有什么问题,直到前一段时间.我的同事发现部署的web项目中出现乱码情况.但中文作为参数进行传递到下一个页面的时候就乱码 ...

深入理解linux网络技术内幕读书笔记(八)--设备注册与初始化

Table of Contents 1 设备注册之时 2 设备除名之时 3 分配net_device结构 4 NIC注册和除名架构 4.1 注册 4.2 除名 5 设备初始化 6 设备类型初始化: x ...

Eclipse连接SQL Server 2008数据库 以及问题总结

Eclipse中使用SQL server 2008数据库 一.准备材料 要能够使用数据库就要有相应的JDBC,所以我们要去Microsoft官网下载 https://www.microsoft.com ...

Java_接口与抽象类

接口: 接口,英文interface,在java中,泛指供别人调用的方法或函数.接口是对行为的一种抽象. 语法: [public] interface InterfaceName{} 注意: 1)接口 ...

Python的hasattr(),getattr(),setattr()

今天读到源码时遇到了setattr()和getattr()两方法,给忘了,重新回顾一下吧! 1. hasattr(object, name) 判断object里是否有name属性,有就返回True,没 ...

Python中常用的模块

模块,用一砣代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来,可能需要多个函数才 ...

Session机制三(表单的重复提交)

1.表单的重复提交的情况 在表单提交到一个servlet,而servlet又通过请求转发的方式响应了一个JSP页面,这个时候地址栏还保留这servlet的那个路径,在响应页面点击刷新. 在响应页面没有 ...