天天看點

python連續資料離散化_機器學習入門-數值特征-連續資料離散化(進行分段标記處理) 1.hist(Dataframe格式直接畫直方圖)...

函數說明:

1. .hist 對于Dataframe格式的資料,我們可以使用.hist直接畫出直方圖

對于一些像年齡和工資一樣的連續資料,我們可以對其進行分段标記處理,使得這些連續的資料變成離散化

就好比:我們可以将0-9歲用0表示

10-19用1表示

20-29用2表示

...

下面我們對一個年齡資料進行了分段标記處理

代碼:

第一步:導入資料

第二步:對年齡特征使用.hist畫出直方圖,直方圖本身也是一個分段的過程

第三步:使用np.floor(/10)取整,将比如5歲的年齡計算後為0

第四步:将特征放入原資料中,進行展示

import pandas as pd

import matplotlib.pyplot as plt

import numpy as np

# 第一步

fcc_survey_df = pd.read_csv('datasets/fcc_2016_coder_survey_subset.csv')

# 對年齡特征進行分段标記:比如0-9分為0, 10-19為1....

# 先對年齡字典畫直方圖,直方圖本身也是一種分段過程

# 第二步

fig, ax = plt.subplots()

fcc_survey_df['Age'].hist(color='#A9C5D3')

ax.set_xlabel('Age')

ax.set_ylabel('Frequency')

ax.set_title('Age bins')

plt.show()

python連續資料離散化_機器學習入門-數值特征-連續資料離散化(進行分段标記處理) 1.hist(Dataframe格式直接畫直方圖)...

# 第三步我們使用/10取整對年齡字段進行分段處理

Age_bins = np.floor(fcc_survey_df['Age'].values / 10)

# 第四步:将清單放入原資料中進行展示

fcc_survey_df['Age_bins'] = Age_bins

print(fcc_survey_df[['Age', 'Age_bins']].head())

python連續資料離散化_機器學習入門-數值特征-連續資料離散化(進行分段标記處理) 1.hist(Dataframe格式直接畫直方圖)...

随機推薦

Excel——将内容導出

using (FileStream fsRead = File.OpenRead("111.xls")) { IWorkbook wk = new HSSFWorkbook(fsR ...

asp.net mvc 實作部落格的時間分類管理

先看效果 這個其實用c#實作起來比較簡單: Sides = bllSession.IArticleBLL.GetList("") .Select(a => a.Time) . ...

linux設定語言編碼

前段時間在伺服器上安裝了centos6.2版本,當初安裝時語言選擇英文.這本來也沒有什麼問題,直到前一段時間.我的同僚發現部署的web項目中出現亂碼情況.但中文作為參數進行傳遞到下一個頁面的時候就亂碼 ...

深入了解linux網絡技術内幕讀書筆記(八)--裝置注冊與初始化

Table of Contents 1 裝置注冊之時 2 裝置除名之時 3 配置設定net_device結構 4 NIC注冊和除名架構 4.1 注冊 4.2 除名 5 裝置初始化 6 裝置類型初始化: x ...

Eclipse連接配接SQL Server 2008資料庫 以及問題總結

Eclipse中使用SQL server 2008資料庫 一.準備材料 要能夠使用資料庫就要有相應的JDBC,是以我們要去Microsoft官網下載下傳 https://www.microsoft.com ...

Java_接口與抽象類

接口: 接口,英文interface,在java中,泛指供别人調用的方法或函數.接口是對行為的一種抽象. 文法: [public] interface InterfaceName{} 注意: 1)接口 ...

Python的hasattr(),getattr(),setattr()

今天讀到源碼時遇到了setattr()和getattr()兩方法,給忘了,重新回顧一下吧! 1. hasattr(object, name) 判斷object裡是否有name屬性,有就傳回True,沒 ...

Python中常用的子產品

子產品,用一砣代碼實作了某個功能的代碼集合. 類似于函數式程式設計和面向過程程式設計,函數式程式設計則完成一個功能,其他代碼用來調用即可,提供了代碼的重用性和代碼間的耦合.而對于一個複雜的功能來,可能需要多個函數才 ...

Session機制三(表單的重複送出)

1.表單的重複送出的情況 在表單送出到一個servlet,而servlet又通過請求轉發的方式響應了一個JSP頁面,這個時候位址欄還保留這servlet的那個路徑,在響應頁面點選重新整理. 在響應頁面沒有 ...