2分鐘入門Python資料分析,5秒完成一階段
Q6:請告訴我在一個Postcode下,
income最高的記錄。
這個問題是典型的天坑題,
在SAS 認證的第2題,
CIBC 面試的第5題,
它賭你不知道,
資料分析的第一要務是消除重複,
不消除重複的資料,
就是油炸垃圾。
油越好越浪費[呲牙]
Python做這件事情就像在說話,
而且都說在了點子上。
第一句是:result =
df.groupby('postcode').
income.max().
reset_index()
結果等于分組用“postcode”,
收入最高,重置索引。
為什麼重置索引?
你分組了,索引當然變了。
第二句:result.drop_duplicates
(subset='postcode',
keep='first', inplace=True)
結果消除重複,
消除postcode的重複,
保留第一行,取代原先的。
Yes,5秒到。
你get 到了嗎?