数据清洗之数据整理

数据整理

定义

在数据清洗过程中，很多时候需要将不同的数据整理在一起，方便后续的分析，这个过程也叫数据合并

合并方法

常见的合并方法有堆叠和按主键进行合并，堆叠又分为横向堆叠和纵向堆叠，按主键合并类似于sql里面的关联操作

横向堆叠将两张表或多张表在X轴方向，即横向拼接在一起
纵向堆叠将两张表或多张表在Y轴方向，即纵向拼接在一起
注意join 取inner或者outer，分别代表交集和并集

# 用于读取excel文件
import xlrd
import os
import pandas as pd
import numpy as

os.getcwd()

'D:\\Jupyter\\notebook\\Python数据清洗实战\\数据清洗之数据表处理'

os.chdir('D:\\Jupyter\\notebook\\Python数据清洗实战\\数据')

workbook = xlrd.open_workbook('meal_order_detail.xlsx')

# 获取工作表的名称
sheet_name = workbook.sheet_names()

sheet_name

['meal_order_detail1', 'meal_order_detail2', 'meal_order_detail3']

order1 = pd.read_excel('meal_order_detail.xlsx', sheet_name='meal_order_detail1')
order2 = pd.read_excel('meal_order_detail.xlsx', sheet_name='meal_order_detail2')
order3 = pd.read_excel('meal_order_detail.xlsx', sheet_name='meal_order_detail3')

# ignore_index=True, 表示重置索引
order = pd.concat([order1, order2, order3], axis=0, ignore_index=True)

# 获取末5行
order.tail(5)

detail_id

order_id

dishes_id

logicprn_name

parent_class_name

dishes_name

itemis_add

counts

amounts

cost

place_order_time

discount_amt

discount_reason

kick_back

add_inprice

add_info

bar_code

picture_file

emp_id

10032

5683

672

610049

NaN

爆炒双丝

NaN

2016-08-31 21:53:30

NaN

caipu/301003.jpg

1089

10033

5686

672

609959

NaN

小炒羊腰\r\n\r\n\r\n

NaN

2016-08-31 21:54:40

NaN

caipu/202005.jpg

1089

10034

5379

647

610012

NaN

香菇鹌鹑蛋

NaN

2016-08-31 21:54:44

NaN

caipu/302001.jpg

1094

10035

5380

647

610054

NaN

不加一滴油的酸奶蛋糕

NaN

2016-08-31 21:55:24

NaN

caipu/501003.jpg

1094

10036

5688

672

609953

NaN

凉拌菠菜

NaN

2016-08-31 21:56:54

NaN

caipu/303004.jpg

1089

basic = pd.DataFrame()

# 可以使用for循环进行合并
for i in sheet_name:
    basic_i = pd.read_excel('meal_order_detail.xlsx', sheet_name=i)
    basic = pd.concat([basic, basic_i], axis=0, ignore_index=True)

basic.shape

(10037, 19)

basic.tail(5)

detail_id

order_id

dishes_id

logicprn_name

parent_class_name

dishes_name

itemis_add

counts

amounts

cost

place_order_time

discount_amt

discount_reason

kick_back

add_inprice

add_info

bar_code

picture_file

emp_id

10032

5683

672

610049

NaN

爆炒双丝

NaN

2016-08-31 21:53:30

NaN

caipu/301003.jpg

1089

10033

5686

672

609959

NaN

小炒羊腰\r\n\r\n\r\n

NaN

2016-08-31 21:54:40

NaN

caipu/202005.jpg

1089

10034

5379

647

610012

NaN

香菇鹌鹑蛋

NaN

2016-08-31 21:54:44

NaN

caipu/302001.jpg

1094

10035

5380

647

610054

NaN

不加一滴油的酸奶蛋糕

NaN

2016-08-31 21:55:24

NaN

caipu/501003.jpg

1094

10036

5688

672

609953

NaN

凉拌菠菜

NaN

2016-08-31 21:56:54

NaN

caipu/303004.jpg

1089

df = pd.read_csv('baby_trade_history.csv', dtype={'user_id': str})

df1 = pd.read_csv('sam_tianchi_mum_baby.csv', dtype={'user_id': str})

# 基本信息数据
df1.head(5)

user_id	birthday	gender
2757	20130311	1
1	415971	20121111
2	1372572	20120130	1
3	10339332	20110910
4	10642245	20130213

# 交易数据
df.head(5)

user_id	auction_id	cat_id	cat1	property	buy_mount	day
786295544	41098319944	50014866	50022520	21458:86755362;13023209:3593274;10984217:21985...	2	20140919
1	532110457	17916191097	50011993	28	21458:11399317;1628862:3251296;21475:137325;16...	1	20131011
2	249013725	21896936223	50012461	50014815	21458:30992;1628665:92012;1628665:3233938;1628...	1	20131011
3	917056007	12515996043	50018831	50014815	21458:15841995;21956:3494076;27000458:59723383...	2	20141023
4	444069173	20487688075	50013636	50008168	21458:30992;13658074:3323064;1628665:3233941;1...	1	20141103

# 将df1添加到df右边，关联字段为 "user_id"
df2 = pd.merge(left=df, right=df1, how='inner', left_on='user_id', right_on='user_id')

df2.head(5)

user_id	auction_id	cat_id	cat1	property	buy_mount	day	birthday	gender
513441334	19909384116	50010557	50008168	25935:21991;1628665:29784;22019:34731;22019:20...	1	20121212	20110105	1
1	377550424	15771663914	50015841	28	1628665:3233941;1628665:3233942;3914866:11580;...	1	20121123	20110620	1
2	47342027	14066344263	50013636	50008168	21458:21599;13585028:3416646;1628665:3233942;1...	1	20120911	20101008	1
3	119784861	20796936076	50140021	50008168	21458:120325094;22019:2026;22019:34731;22019:3...	1	20121129	20120327
4	159129426	15198386301	50013711	50008168	21458:11580;1628665:29778;22019:3340598;22019:...	2	20120808

数据清洗之数据整理

数据整理

继续阅读

实验报告->数组的定义和使用->两路合并法合并两个升序数组

POI shiftRows后合并单元格丢失的解决办法

学习PowerBI书籍推荐第一本DAX权威指南推荐指数⭐⭐⭐⭐⭐推荐理由：理解DAX背后原理，高效写DAX。第二本DAX

Linux下调整ext3分区大小

js与jquery常用方法总结

SVN分支和合并(trunk、branches、tags)

svn 分支(branches)合并到主干(trunk)

svn分支合并到主干,主干合并到分支

TortoiseSVN中分支和合并实践 SVN中Branch和tag优劣大比拼

SVN 分支的合并和同步

vue 实现表格合并

Python3爬虫、数据清洗与可视化实战之写一个简单的爬虫关于爬虫的合法性了解网页…使用requests库请求网站使用Beautiful Soup解析网页清洗和组织数据爬虫攻防战

“不信谣不传谣”，网友发布一篇关于红十字会的文章，被红十字会警告为造谣，要求发文作者发布辟谣声明，并且一直保留，直到阅读

【转载】svn的merge使用例子

大数据计算前数据抽取（ETL）概述

ETL详解

数据清洗之 数据整理

数据整理

继续阅读

数据清洗之数据整理