文章目录

1. pandas简介
2. Series
- 2.1 Series创建
- 2.2 Series常用属性
- 2.3 Serices索引和切片
- 2.4 Serices删除数据
3.DataFrame
- 3.1DataFrame创建
- 3.2 DataFrame索引和切片
- 3.3DataFrame新增(修改)和删除行或列
- 3.4 DataFrame常用函数和属性
- 3.5 DataFrame使用掩码提取数据
- 3.6 描述与统计
- 3.7 万能函数: map,apply,applymap
- 3.8 DataFrame的合并
- 3.9 缺失值处理
- 3.10 填充缺失值:
- 3.11 处理文本数据
- 3.12 数据分组_groupby

1. pandas简介

Pandas是基于Numpy的数据分析包,内核是Numpy

加粗样式 Pandas通常是用于数据分析过程中, 数据的清洗, 数据预处理, 数据的描述性分析等过程中.

在整个Python数据分析的生态环境中, Pandas的地位非常重要, 利用Pandas可以快速便捷的对数据进行各种各样的处理与操作.

Pandas的名称来自于面板数据（panel data）和python数据分析（data analysis）。

在Pandas中, 最重要的两种数据结构是1维的Series和2维的DataFrame.

Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。

Series中能保存不同种数据类型，字符串、boolean值、数字等都能保存在Series中。但是每个Series中只能保存一种数据结构.

DataFrame：二维的表格型数据结构。有多个Series共同构成的集合就变成DataFrame.

2. Series

Series 是一个带有名称和索引的一维数组既然是数组，肯定要说到的就是数组中的元素类型，在 Series 中包含的数据类型可以是整数、浮点、字符串、Python对象等

2.1 Series创建

pandas.Serices(data,index,dtype,name,)

data: 数据来源,可为数组,字典,可迭代类型和标量值

index: 索引值

dtype: 数据类型

name: 值列名称

2.2 Series常用属性

s.name #提取名称,可以直接赋值,修改原数据

s.index # 提取索引,可以赋值,修改原数据,但数量要相等

s.values # 提取值,不可直接赋值

s.dtype # 提取数据类型,使用astype函数修改

s.index.name # 索引名称,可以直接赋值,直接修改原数据

2.3 Serices索引和切片

1.按照字典方式索引: Serices[‘索引值’] 或Serices.get(‘索引值’,default)

2. 按照字典方式索引: 和列表索引和ndarray索引方式共通

3. 传入索引值的方式提取数据

2.4 Serices删除数据

Serices.drop() : 删除数据返回副本,不会修改原数据

Serices.pop() : 将数据在原数据中直接弹出返回,将原数据直接修改

3.DataFrame

3.1DataFrame创建

构建DataFrame主要有两种思路:

1.1. 字典的方式创建: 以列的方式进行组织,key作为列名,值作为列值

1.2. Serices方式创建: 以行的方式组织,一个Serices代表一列,列名需要参数传递进去

本地读取数据: DataFrame = pandas.read_(path)

保存数据至本地: DataFrame.to_(path)

3.2 DataFrame索引和切片

提取列数据

1.1 提取列数据的方式和Serices方式相同,分为显示索引和隐式索引两种

提取行数据

2.1 提取行数据需要使用函数:

2.1.1 显示索引: DataFrame.loc[行值,列值] 注意,loc函数是中括号,不是小括号

2.1.2 隐式索引: DataFrame.iloc[行索引,列索引] 同样iloc函数也是中括号

3.3DataFrame新增(修改)和删除行或列

对行操作:

1.1 新增: DataFrame.loc[行索引值] = [值序列] 值的个数要符合DataFrame结构,若行值存在,则修改原数据

1.2 删除: 使用drop函数或pop函数

2.对列操作:

2.1 新增: DataFrame[列索引值] = [值序列] 值的个数要符合DataFrame结构,若行值存在,则修改原数据

2.2. 删除: 使用drop函数或pop函数

3.4 DataFrame常用函数和属性

查看整体基本信息: DataFrame.info() 返回各列的类型

查看前几行数据: DataFrame.head(n) 返回表的前n条数据,不写默认为5条

查看后几行数据:DataFrame.tail(n) 返回表的最后n条数据,不写默认为5条

转置: DataFrame.T 转换行列

查看表形状: DataFrame.shape

获取数据的原有信息: DataFrame.values

3.5 DataFrame使用掩码提取数据

提取方式和切片一样,但是判断条件需要使用单行列或行值进行判断,无法直接使用DataFrame作为判断条件

3.6 描述与统计

基本统计值函数: DataFrame.describe() : 返回一个DataFrame,默认返回计数,平均值,标准差,最小值,最大值,四分位数

统计某列值出现次数: DataFrame[列名].value_counts(): 返回每列中不同值出现次数

离散化:将数值列划分为及格区间:

3.1. 等宽分箱: Pandas.cut(DataFrame.[‘列名’] , 分箱个数,labels = ) : 按照同等宽度划分区间,labels参数可以给个区间命名

3.2. 等深分箱: Pandas.qcut(DataFrame.[‘列名’] , 分箱个数) : 按照数值划分区间, 实现每个区间内的值个数接近

排序:

4.1. 按照索引方式排序: DataFrame.sort_index() : 按照索引排序,可是指定axis参数选择轴

4.2. 按照列值方式排序: DataFrame.sort_values(by = ): 按照 by指定的列中的值排序

根据现有列生成新列: DataFrame.assign(**kwargs) : 可变长指定列名参数: 列名 = 对表中某一列执行操作

修改索引: DataFrame.rename(index = ,columns = ): 使用index参数修改行索引,使用columns修改列索引,参数值可以是字典或函数,一般使用字典的方式

修改类型: DataFrame[‘列名’].astype(‘类型’): 修改类型,返回一个副本

3.7 万能函数: map,apply,applymap

map函数: DataFrame[‘列名’].map(自定义函数): 将列的每一个元素传入函数中,返回一个Series,map函数是一个Serices函数

apply函数: apply函数支持DataFrame和Serices两种类型,可以对列操作,也可以对DataFrame操作,操作方式和map一样,apply操作方式是以一列为以一个单位传入参数

applymap函数:applymap函数只能用在DataFrame上,apply操作方式是以DataFrame中的每一个元素为一个单位传入参数中

3.8 DataFrame的合并

DataFrame.append函数: DataFrame.append(DataFrame2) : 将1和2合并,相同列名追加,不同列名作为新的列,另一个表中的此列值为NAN

Pandas.concat函数: Pandas.concat(): 第一个参数为DataFrame组成的列表,可以使用join参数指定内连接还是外连接,默认外连接,可以使用axis参数指定轴,默认按照列合并

Pandas.merge函数: Pandas.merge(left,right,how,on,left_on,right_on): merge又称为数据库连接,功能和数据库中的连接类似,left和right参数代表左表和右表,how代表连接方式(left,right,inner,outer),on 指定两个表连接的关系列,若两表不同,使用left_on和right_on参数

3.9 缺失值处理

isnull函数和notnull函数: DataFrame.isnull() 返回一个全是Bool值的DataFrame

dropna函数:丢弃空值列,DataFrame.dropna(axis,how,thresh,subset,inplace):

2.1. axis: 指定轴

2.2. how: 删除规则:any整行有一个空值就删除,all全部为空才删除

2.3. thresh: thresh = n,一行或一列中至少有n个非空值,才会保留,否则删除行或列

2.4. subset: 选择处理的行索引或列索引

2.5. inplace:是否直接在原地修改,默认为False返回副本,如果为True则直接修改原数据,不会有返回值

3.10 填充缺失值:

fillna函数

1.1. 固定值填充: DataFrame.列名.fillna(n): n为要填充的值,会将所有的空值都填为n

1.2. 上下文填充: method参数可以选择空值上面的数值或下面的数值进行填充:

1.2.1. method = ‘pad’ 或method= ‘ffill’ 可以选择空值上面的一个有效值进行填充

1.2.2. method = ‘backfill’ 或者method = ‘bfill’ 可以选择空值下面的一个有效值进行填充

2.interpolate函数: 默认使用线性差值进行填充,可以通过过method参数设置方式

替换缺失值: replace函数

3.11 处理文本数据

Serices.str属性,方便对Serices中的每个字符串元素进行操作

支Python原生字符串方法: len ,lower ,upper ,islower ,isupper ,find ,count ,strip ,split

高级方法: contains,startswith,endswith,replace

3.1. contains函数: 判断字符串是否包含某个子字符串,返回一个bool Serices

3.2. startswith函数,判断字符串的开头是否是某个子字符串

3.3. endswith函数,判断字符串是否以某个子字符串结尾

3.4. str.replace和replace的区别: str.replace是对字符串中的某个子字符串进行替换, python原生replace需要对整个字符串进行替换,不能替换字符串局部

cat函数,连接字符串: 将整列的数据连接在一起,形成一个大字符串,可以使用sep参数设置分隔符

get_dummies()函数: 生成哑变量,可以指定sep参数,设置原字符串中的分隔符,根据整列值生成新的列,有多少不重复值,就生成多少个列,原列值和列名相等则列值为1,否则为0,返回一个DataFrame

3.12 数据分组_groupby

根据筛选列,和筛选条件,将数据分组

DataFrame.groupby(‘列名’) : 会返回一个DataFrameGroupby对象,内部放了分组数据,但无法显示,需要进一步设置累计函数后才会显示结果

筛选表:DataFrame.groupby(‘列名’).累计函数() 返回分组后,表中所有列的累计函数值

筛选列: DataFrame.groupby(‘列名’)[‘要筛选的列名’].累计函数() ,返回一个Data

python数据清洗 -pandas库1. pandas简介2. Series3.DataFrame

文章目录

1. pandas简介

2. Series

2.1 Series创建

2.2 Series常用属性

2.3 Serices索引和切片

2.4 Serices删除数据

3.DataFrame

3.1DataFrame创建

3.2 DataFrame索引和切片

3.3DataFrame新增(修改)和删除行或列

3.4 DataFrame常用函数和属性

3.5 DataFrame使用掩码提取数据

3.6 描述与统计

3.7 万能函数: map,apply,applymap

3.8 DataFrame的合并

3.9 缺失值处理

3.10 填充缺失值:

3.11 处理文本数据

3.12 数据分组_groupby

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告