天天看點

Python資料分析之Pandas庫一、Pandas簡介二、Pandas庫的安裝三、Pandas的資料結構四、Series 和 DataFrame 資料結構的使用五、其他可以參考的網站

Python資料分析之Pandas庫

  • 一、Pandas簡介
  • 二、Pandas庫的安裝
  • 三、Pandas的資料結構
  • 四、Series 和 DataFrame 資料結構的使用
  • 五、其他可以參考的網站

一、Pandas簡介

Pandas是python的一個資料分析包,最初由AQR Capital Management于2008年4月開發,并于2009年底開源出來,目前由專注于Python資料包開發的PyData開發團隊繼續開發和維護,屬于PyData項目的一部分。Pandas最初被作為金融資料分析工具而開發出來,是以,pandas為時間序列分析提供了很好的支援。 Pandas的名稱來自于面闆資料(panel data)和python資料分析(data analysis)。panel data是經濟學中關于多元資料集的一個術語,在Pandas中也提供了panel的資料類型。

pandas 是基于NumPy 的,pandas工具是為解決資料分析任務而建立的。Pandas 納入了大量庫和一些标準的資料模型,提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理資料的函數和方法。你很快就會發現,它是使Python成為強大而高效的資料分析環境的重要因素之一。

Python資料分析之Pandas庫一、Pandas簡介二、Pandas庫的安裝三、Pandas的資料結構四、Series 和 DataFrame 資料結構的使用五、其他可以參考的網站

二、Pandas庫的安裝

pandas 是第三方庫,需要單獨安裝才能使用, 推薦pip安裝

pip install pandas
           

一般情況下,我們會像下面這樣引入 pandas 子產品:

import pandas as pd
           

将 pandas 簡寫成 pd 幾乎成了一種不成文的規定。是以,隻要你看到 pd 就應該聯想到這是 pandas。

三、Pandas的資料結構

  • Series:

    一維數組,與Numpy中的一維array類似。二者與Python基本的資料結構List也很相近。Series如今能儲存不同種資料類型,字元串、boolean值、數字等都能儲存在Series中。

  • Time- Series:

    以時間為索引的Series。

  • DataFrame:

    二維的表格型資料結構。很多功能與R中的data.frame類似。可以将DataFrame了解為Series的容器。

  • Panel :

    三維的數組,可以了解為DataFrame的容器。

  • Panel4D:

    是像Panel一樣的4維資料容器。

  • PanelND:

    擁有factory集合,可以建立像Panel4D一樣N維命名容器的子產品。

四、Series 和 DataFrame 資料結構的使用

要使用 pandas,你首先得熟悉它的兩個主要資料結構:Series(一維資料)與DataFrame(二維資料),這兩種資料結構足以處理金融、統計、社會科學、工程等領域裡的大多數典型用例。

關于Series(一維資料)與DataFrame(二維資料)的使用範例,可以參考一下這篇文章,總結的比較詳細:

Series與DataFrame的用法

五、其他可以參考的網站

Pandas官網: https://pandas.pydata.org/

Pandas中文網: https://www.pypandas.cn/

Pandas github: https://github.com/pandas-dev/pandas