函數說明:
1. .hist 對于Dataframe格式的資料,我們可以使用.hist直接畫出直方圖
對于一些像年齡和工資一樣的連續資料,我們可以對其進行分段标記處理,使得這些連續的資料變成離散化
就好比:我們可以将0-9歲用0表示
10-19用1表示
20-29用2表示
...
下面我們對一個年齡資料進行了分段标記處理
代碼:
第一步:導入資料
第二步:對年齡特征使用.hist畫出直方圖,直方圖本身也是一個分段的過程
第三步:使用np.floor(/10)取整,将比如5歲的年齡計算後為0
第四步:将特征放入原資料中,進行展示
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# 第一步
fcc_survey_df = pd.read_csv('datasets/fcc_2016_coder_survey_subset.csv')
# 對年齡特征進行分段标記:比如0-9分為0, 10-19為1....
# 先對年齡字典畫直方圖,直方圖本身也是一種分段過程
# 第二步
fig, ax = plt.subplots()
fcc_survey_df['Age'].hist(color='#A9C5D3')
ax.set_xlabel('Age')
ax.set_ylabel('Frequency')
ax.set_title('Age bins')
plt.show()

# 第三步我們使用/10取整對年齡字段進行分段處理
Age_bins = np.floor(fcc_survey_df['Age'].values / 10)
# 第四步:将清單放入原資料中進行展示
fcc_survey_df['Age_bins'] = Age_bins
print(fcc_survey_df[['Age', 'Age_bins']].head())
随機推薦
Excel——将内容導出
using (FileStream fsRead = File.OpenRead("111.xls")) { IWorkbook wk = new HSSFWorkbook(fsR ...
asp.net mvc 實作部落格的時間分類管理
先看效果 這個其實用c#實作起來比較簡單: Sides = bllSession.IArticleBLL.GetList("") .Select(a => a.Time) . ...
linux設定語言編碼
前段時間在伺服器上安裝了centos6.2版本,當初安裝時語言選擇英文.這本來也沒有什麼問題,直到前一段時間.我的同僚發現部署的web項目中出現亂碼情況.但中文作為參數進行傳遞到下一個頁面的時候就亂碼 ...
深入了解linux網絡技術内幕讀書筆記(八)--裝置注冊與初始化
Table of Contents 1 裝置注冊之時 2 裝置除名之時 3 配置設定net_device結構 4 NIC注冊和除名架構 4.1 注冊 4.2 除名 5 裝置初始化 6 裝置類型初始化: x ...
Eclipse連接配接SQL Server 2008資料庫 以及問題總結
Eclipse中使用SQL server 2008資料庫 一.準備材料 要能夠使用資料庫就要有相應的JDBC,是以我們要去Microsoft官網下載下傳 https://www.microsoft.com ...
Java_接口與抽象類
接口: 接口,英文interface,在java中,泛指供别人調用的方法或函數.接口是對行為的一種抽象. 文法: [public] interface InterfaceName{} 注意: 1)接口 ...
Python的hasattr(),getattr(),setattr()
今天讀到源碼時遇到了setattr()和getattr()兩方法,給忘了,重新回顧一下吧! 1. hasattr(object, name) 判斷object裡是否有name屬性,有就傳回True,沒 ...
Python中常用的子產品
子產品,用一砣代碼實作了某個功能的代碼集合. 類似于函數式程式設計和面向過程程式設計,函數式程式設計則完成一個功能,其他代碼用來調用即可,提供了代碼的重用性和代碼間的耦合.而對于一個複雜的功能來,可能需要多個函數才 ...
Session機制三(表單的重複送出)
1.表單的重複送出的情況 在表單送出到一個servlet,而servlet又通過請求轉發的方式響應了一個JSP頁面,這個時候位址欄還保留這servlet的那個路徑,在響應頁面點選重新整理. 在響應頁面沒有 ...