esproc vs python 2 簡單計算

1.添加Age、Fullname字段

esproc：

A4：我們用T表示序表。T.derive（）表示增加字段。這裡用age(日期)計算出年齡，作為Age字段。用NAME,SURNAME得到Fullname。

A5：計算運算時間（interval：計算時間間隔。@ms表示以毫秒為機關）

python：

import time

import pandas as pd

import datetime

s = time.time()

data = pd.read_csv("C:/Users/Sean/Desktop/esproc_vs_python/EMPLOYEE.txt",sep="t")

today = datetime.datetime.today().year

data["Age"] = today-pd.to_datetime(data["BIRTHDAY"]).dt.year

data["Fullname"]=data["NAME"]+data["SURNAME"]

print(data)

e = time.time()

print(e-s)

計算出BIETHDAY字段的值（日期）距今天的年數，作為年齡字段。用NAME+SURNAME作為Fullname字段

結果

esproc:

2.提取需要的記錄或者字段（前3個字段，第3~10條記錄）

A4：T.new()表示建立序表。這裡以第1,2,3個字段作為新表的字段。T.A，表示取出序列中包含的行号。

data = data.iloc[2:10,:3]

使用df.iloc[]切片獲得3~10條記錄，前三個字段（dataframe的字段号和記錄号都是從0開始計數的）。

結果：

3.篩選符合條件的記錄

A4：T.select（）篩選符合條件的記錄。這裡是篩選STATE=="California"為真的記錄

data = data[data['STATE']=="California"]

取出data['STATE']=="California"的記錄

4.計算字段的常用值

A4:T.min()計算字段最小值

A5:T.max()計算字段最大值

A6:T.avg()計算字段平均值

A7:T.sum()計算字段總和

A8:計算字段中位數。A.median(k:n)函數，參數全省略時，如果序列長度是奇數傳回中間位置值；如果序列長度是偶數傳回中間兩個值的平均值。

A9:T.variance()計算字段方差。

python

min = data["SALARY"].min()

max = data["SALARY"].max()

avg = data["SALARY"].mean()

sum = data["SALARY"].sum()

median = data["SALARY"].median()

var = data["SALARY"].var()

print(min,max,avg,sum,median,var)

df[字段名]表示取得字段。min(),max(),mean(),sum(),median(),var()分别計算最小值，最大值，平均數，總和，中位數，方差。

5.統計各部門員工的男女人數

A4：T.groups()表示以DEPT分組，計算GENDER==“M”或GENDER==“F”的值,得到各部門男女員工的數量。

group = data.groupby(['DEPT','GENDER']).size()

print(group)

截取GENDER==‘M’或者GENDER==‘F’的切片以DEPT通過goupby()函數得到以DEPT的分組。最後用size()函數得到結果。

esproc：

6.統計男女員工的平均年齡

A4：T.groups()用來分組，avg()計算平均值，age()根據日期計算時間間隔。

avg_age = data.groupby('GENDER')['Age'].mean()

print(avg_age)

計算得到Age字段。然後用groupby()函數以GENDER分組，最後通過mean()函數得到平均值。

7.計算員工薪酬比前一名員工高的最大人數

A4：if(condition,x1,x2)表示如果條件成立，if語句的值為x1，否則值為x2，在這兒計算如果SALARY比前一個員工薪水高的話a=a+1。進而得到A3.(a)，其中a随着if語句不斷的變化。最後得到一個序列，max()函數得到最大值。

a=0 ; m=0

for i in data['SALARY'].shift(0)>data['SALARY'].shift(1):

a=0 if i==False else a+1

m = a if m < a else m

print(m)

df.shift(0)表示目前記錄，df.shift(n)表示前面第n條記錄，data['SALARY'].shift(0)>data['SALARY'].shift(1) 得到pandas的series結構。循環如果為假（False）表示目前記錄小于或等于上一條記錄，把a置0，如果為真則加1。m的作用：當m

8.每個字段随機設定5-10個缺失值