天天看点

Pandas之三选择数据

前文介绍了如何查看dataframe数据,现在再来看看怎么样定位和修改pandas的具体数据。

官方推荐选择数据的方法为

.at, .iat, .loc, .iloc

,这些方法可以指定行列的信息进行数据筛选。具体功能说明如下:

  • at:根据标签(label)定位具体元素
  • iat:根据位置定位具体元素
  • loc:根据标签截取Series、dataframe或具体元素
  • iloc:根据位置截取Series、dataframe或具体元素

配合起来可以在dataframe里面使用多种方式选择数据:

  1. 按数据列选择数据
  2. 使用列表

    []

    方式选择数据
  3. 按标签选择数据
  4. 按位置选择数据
  5. 按条件筛选数据
  6. 以新值更新选择的数据

下面我们依然使用前文生成的df对象来演示各种方法

df = pd.DataFrame(np.random.randn(6, 4), 
                  index=dates, 
                  columns=list("ABCD"))           
Pandas之三选择数据

按列选择数据

可以使用

df.A

方式选择A列数据,该方式等同于

df["A"]

Pandas之三选择数据

也可以通过

df[["A","B"]]

方式选择多个列

Pandas之三选择数据

列表

[]

该方法是截取dataframe中的某些行

  1. 选择所有数据
Pandas之三选择数据
  1. 通过索引位置选择某几行,该方法按照左闭右开方式截取数据
    Pandas之三选择数据
  2. 选择某范围内的几行数据,该方法按照左闭右闭方式截取数据,类似于SQL语法中的

    between .. and ..

Pandas之三选择数据

注:官方并不推荐使用以上这种方式做数据选择,推荐选择数据的方法为

.at, .iat, .loc, .iloc

  1. 可以根据index值选择某行数据
Pandas之三选择数据
  1. 可以根据用index的范围选择多行数据
Pandas之三选择数据
  1. 在选择数据时,可以配合列名进一步选择数据
Pandas之三选择数据
  1. 通过index和列名定位到某个cell具体的值(前文的方式获取到依然dataframe,而此处获取到的是标量数据),同时支持

    .loc

    .at

    方式。要注意的是:
    • .at

      不支持类型隐式转换,而

      .loc

      是支持的
    • .at

      的速度比

      .loc

      要快
Pandas之三选择数据

通过位置选择数据的时候,既可以选择一行一列、一行多列、多行一列、多行多列也可以选择具体元素,在label不明确的时候,可以通过位置进行选择。最典型的场景就是选择首行、尾行等。

  1. 选择第n行数据,只输入一个参数时,默认为行。
Pandas之三选择数据
  1. 选择第n行,某几列数据,同时输入行列数据时,使用逗号

    ,

    间隔。在范围选择时,其按照左闭右开方式截取数据。
Pandas之三选择数据
  1. 选择某几行,某列数据
Pandas之三选择数据
  1. 选择某几行,某几列数据
Pandas之三选择数据
  1. 选择所有行,某些列数据
Pandas之三选择数据
  1. 选择具体元素
Pandas之三选择数据

按条件选择数据

在pandas中也可以使用条件进行数据过滤,就像使用where条件一样。

  1. 根据某列值进行筛选,如图选择B>1的数据
Pandas之三选择数据
  1. 对整个dataframe进行筛选,选择值>0的数据
Pandas之三选择数据
  1. 使用isin()做数据筛选,类似sql中的in
Pandas之三选择数据

更新数据

选择完数据之后,可以使用长度相同的数据的进行更新

  1. 将2021-09-01的A列数据更新为0
Pandas之三选择数据
  1. 将D列使用numpy.array替代,此列是以

    len(df)

    [7]

    来替代
Pandas之三选择数据

欢迎关注微信公众号:数据研发技术,会分享各类数据研发相关的技术