Python用pandas 处理 CSV文件三

作者：洪较瘦不着调退役it人 2023-10-30 11:00:00

回顾一下前面CSV处理的知识

文章 1 Python处理CSV文件

文章2 Python处理CSV 之二

pandas工具作为数据分析中的利器也可以处理CSV文件

安装pandas

pip install pandas

创建一个CSV文件内容如下，这是一批刚入职的员工信息

Name,Hire Date,Salary,Sick Days remaining
Graham Chapman,03/15/14,50000.00,10
John Cleese,06/01/15,65000.00,8
Eric Idle,05/12/14,45000.00,10
Terry Jones,11/01/13,70000.00,3
Terry Gilliam,08/12/14,48000.00,7
Michael Palin,05/23/13,66000.00,8

读取CSV文件

import pandas
df = pandas.read_csv('hrdata.csv')
print(df)

Name Hire Date   Salary  Sick Days remaining
0  Graham Chapman  03/15/14  50000.0                   10
1     John Cleese  06/01/15  65000.0                    8
2       Eric Idle  05/12/14  45000.0                   10
3     Terry Jones  11/01/13  70000.0                    3
4   Terry Gilliam  08/12/14  48000.0                    7
5   Michael Palin  05/23/13  66000.0                    8

可以看到每一行有一个索引，从 0 开始到行数-1

获取所有的姓名

print(df["Name"])

0    Graham Chapman
1       John Cleese
2         Eric Idle
3       Terry Jones
4     Terry Gilliam
5     Michael Palin
Name: Name, dtype: object

指定索引

import pandas
df = pandas.read_csv('hrdata.csv', index_col='Name')
print(df)
# print(df["Name"])  会报错
print(df["Salary"])

print(df) 的结果： index_col='Name' 指定了索引列此时每一行的数字变成了Name

Hire Date   Salary  Sick Days remaining
Name                                                  
Graham Chapman  03/15/14  50000.0                   10
John Cleese     06/01/15  65000.0                    8
Eric Idle       05/12/14  45000.0                   10
Terry Jones     11/01/13  70000.0                    3
Terry Gilliam   08/12/14  48000.0                    7
Michael Palin   05/23/13  66000.0                    8

print(df["Name"] 会报错：

print(df["Name"])

print(df["Salary"])

Name
Graham Chapman    50000.0
John Cleese       65000.0
Eric Idle         45000.0
Terry Jones       70000.0
Terry Gilliam     48000.0
Michael Palin     66000.0
Name: Salary, dtype: float64

获取第一个人的往期时间

print(df['Hire Date'][0])

df['Hire Date'] 取日期列的所有数字变成一个数组
df['Hire Date'][0] 取数组的第一个元素

在Excelt很容易表示这个过程，选选中第二列的所有数据，然后取第一个

读取CSV中部分列

import pandas
df = pandas.read_csv('hrdata.csv', 
            index_col='Employee', 
            parse_dates=['Hired'], 
            header=0, 
            names=['Employee', 'Hired','Salary', 'Sick Days'])
print(df)

Hired   Salary  Sick Days
Employee                                     
Graham Chapman 2014-03-15  50000.0         10
John Cleese    2015-06-01  65000.0          8
Eric Idle      2014-05-12  45000.0         10
Terry Jones    2013-11-01  70000.0          3
Terry Gilliam  2014-08-12  48000.0          7
Michael Palin  2013-05-23  66000.0          8

index_col='Employee', Employee实际上代码的是 Name的值
parse_dates=['Hired'], 处理第二列日期
header=0, 表示第0行是标题头，剩下行是数据
names=['Employee', 'Hired','Salary', 'Sick Days']) 要显示的列名

Python用pandas 处理 CSV文件三

回顾一下前面CSV处理的知识

pandas工具作为数据分析中的利器也可以处理CSV文件

读取CSV文件

指定索引

print(df["Name"] 会报错：

获取第一个人的往期时间

读取CSV中部分列

继续阅读

[月亮]一女子被一条没人看管的大黑狗纠缠，因躲避摔倒后，狗主人赔了女子一笔钱，女子去医院检查发现伤势严重，赔的钱根本就不

被海关查到出口侵权怎么处理

大格局！桑尼收款码被篡改，称想在中国开店，"善款"处理让人感动

真我GT6VS真我GT6至尊版大家觉得哪个名字好？最近这数码圈也是相当热闹，各家新机都开启了预热，还有的厂商玩起了花活。

干网店不容易，起码现在没有以前那么好赚钱了。一网店老板发视频称，自己卖出的衣服，被“七天无理由退货”，收到退货后发现衣服

买手机不仅要看处理器，这5款屏幕素质高拍照好，买对“更舒心”

显卡日报6月15日🌈每日更新显卡新闻和各平台史低价，欢迎关注～🚨最近显卡价格变化不大，可能618也就这样了；🚨高通发布A

大盘跌了一个月，就想问问村里，👀长在屁股上吗？给散户点生存空间吧！不然，会有不少惨剧发生。早盘问候了协和电子它老母，在竞

贝克巴斯E60Pro+智能水龙头实测：说说垃圾处理器到底要不要装？

高效提取多个视频封面，一键掌握批量处理技巧，提升内容生产效率

黄河水处理成生活用水的工艺流程是什么?

农村水厂水井下雨天出黄泥水该怎么处理?

JustinWirtalla是一位现居于蒙大拿的视觉创作人，他的作品展现了其对户外的热爱，而冒险与探索的回报，是美至心颤

GPT-4o实时语音方案Livekit开源voice agent：轻松处理音视频流

离了中国不行？中国拒收洋垃圾第7年，西方垃圾处理崩溃了！

致敬勒夫！科曼疑似流鼻血，后续处理行云流水，执教巴萨曾被曝光

Python用pandas 处理 CSV文件 三

回顾一下前面CSV处理的知识

pandas工具作为数据分析中的利器也可以处理CSV文件

读取CSV文件

指定索引

print(df["Name"] 会报错：

获取第一个人的往期时间

读取CSV中部分列

继续阅读

Python用pandas 处理 CSV文件三