Pandas之五数据操作

2021-09-16 16:34:00

Pandas之五数据操作

前面我们聊过了对象创建、数据查看、数据选择的相关操作，现在就要进入到数据分析阶段了。使用pandas主要原因就是其提供的数据分析功能，能实现大部分的数据统计分析工作。对数据进行操作主要有四种类型：

数据统计：常用的就是计数、平均值、最大值、最小值、标准差、分位数等等

函数应用：依次对dataframe每行执行某个函数

数值计数：统计每个值出现的次数，在制作直方图时可能会用到

字符串函数：pandas支持字符串，自然地支持对字符串进行各种操作

下面我们以图中的数据来演示上述各项功能。

使用pandas经常会要用到数据统计功能，常用的有计数<code>count</code>、平均值<code>mean</code>、最大值<code>max</code>、最小值<code>min</code>、标准差<code>std</code>、分位数<code>quantile</code>等，其使用方法基本一致，此处以均值和标准差为例进行演示。

注：默认情况在统计时会忽略缺失值<code>np.nan</code>。

计算平均值时可以按行计算或者按列计算，通过设置方法参数axis控制。

按列计算（默认情况下就是按列计算）

按行计算

和计算平均值时一样，可以按行计算或者按列计算，通过设置方法参数axis控制。

按列计算（默认情况下按列计算）

可以对dataframe应用某个函数，也可以对指定的行或列应用，以累计和函数<code>np.cumsum</code>为例。

对整个df按列逐行计算累加和值，axis默认为0

从df中截取某行，设置axis=1计算各列的累加和值，

从df中截取某列，计算各行的累加和值

有时需要统计某些值出现的次数来绘制直方图，可以使用<code>value_count</code>实现。<code>value_counts</code>有点类似于sql中的<code>group by ... count</code>。默认情况下做统计会忽略<code>np.nan</code>值，可以使用<code>dropna=False</code>统计<code>np.nan</code>值。

下图表示每行数据都不相同，只出现1次。

同时统计E列中的数字和缺失值。

pandas为series提供了针对字符串的操作方法<code>.str</code>，其包括诸如大小写转换<code>lower,upper</code>、字符串替换<code>replace</code>等各种常用的字符串操作函数。以replace为例：

欢迎关注微信公众号：数据研发技术，收获各类干货

Pandas之五数据操作

继续阅读

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

详解STM32单片机的堆栈

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入