天天看點

2分鐘入門Python資料分析,5秒完成一階段Q6:請告訴我在一個Postcode下,income最高的記錄。這個問題是

作者:熊貓實戰資料分析

2分鐘入門Python資料分析,5秒完成一階段

Q6:請告訴我在一個Postcode下,

income最高的記錄。

這個問題是典型的天坑題,

在SAS 認證的第2題,

CIBC 面試的第5題,

它賭你不知道,

資料分析的第一要務是消除重複,

不消除重複的資料,

就是油炸垃圾。

油越好越浪費[呲牙]

Python做這件事情就像在說話,

而且都說在了點子上。

第一句是:result =

df.groupby('postcode').

income.max().

reset_index()

結果等于分組用“postcode”,

收入最高,重置索引。

為什麼重置索引?

你分組了,索引當然變了。

第二句:result.drop_duplicates

(subset='postcode',

keep='first', inplace=True)

結果消除重複,

消除postcode的重複,

保留第一行,取代原先的。

Yes,5秒到。

你get 到了嗎?

2分鐘入門Python資料分析,5秒完成一階段Q6:請告訴我在一個Postcode下,income最高的記錄。這個問題是
2分鐘入門Python資料分析,5秒完成一階段Q6:請告訴我在一個Postcode下,income最高的記錄。這個問題是
2分鐘入門Python資料分析,5秒完成一階段Q6:請告訴我在一個Postcode下,income最高的記錄。這個問題是

繼續閱讀