df.duplicated() 傳回各行是否是上一行的重複行
df.drop_duplicates() 删除重複行,如果需要按照列過濾,參數選填[‘col1’, ‘col2’,…]df.fillna(0) 用實數0填充na
df.dropna() axis=0|1 0-index 1-column
how=’all’|’any’ all-全部是NA才删 any-隻要有NA就全删
del df[‘col1’] 直接删除某一列
df.drop([‘col1’,…], aixs=1) 删除指定列,也可以删除行
df.column = col_lst 重新制定列名
df.rename(index={‘row1′:’A’}, 重命名索引名和列名
columns={‘col1′:’A1’})
df.replace(dict) 替換df值,前後值可以用字典表,{1:‘A’, ‘2’:’B’}
def get_digits(str):
m = re.match(r'(d+(.d+)?)’, str.decode(‘utf-8’))
if m is not None:
return float(m.groups()[0])
else:
return 0
df.apply(get_digits) DataFrame.apply,隻擷取小數部分,可以標明某一列或行
df[‘col1’].map(func) Series.map,隻對列進行函數轉換
pd.merge(df1, df2, on=’col1′,
how=’inner’,sort=True) 合并兩個DataFrame,按照共有的某列做内連接配接(交集),outter為外連接配接(并集),結果排序
pd.merge(df1, df2, left_on=’col1′,
right_on=’col2′) df1 df2沒有公共列名,是以合并需指定兩邊的參考列