資料分析工具
Python本身的資料分析功能不強,需要安裝一些第三方的擴充庫來增強的它的能力。我們課程用到的庫包括Numpy、Matplotlib、Pandas等,下面對這三個庫做一個簡單介紹,後面會通過案例深入講解相關庫的使用。
Numpy
Python并沒有提供數組的功能。雖然清單可以完成基本的數組功能,但它不是真正的數組,而且在資料量較大的時候,使用清單的速度會慢的讓人難以接受。為此,Numpy提供了真正的數組功能,以及對資料進行快速高效處理的函數。Numpy還是很多更進階的擴充庫的依賴庫,後面講解的Matplotlib庫、Pandas庫都依賴于它。值得強調的是,Numpy内置函數處理資料的速度是C語言界别的,因為在編寫程式的時候,應當盡量使用它們内置的函數,避免出現效率瓶頸的現象。
Numpy是Python中相當成熟和常用的庫,是以關于它的教程有很多。
Matplotlib
不論是資料挖掘還是數學模組化,都免不了資料可視化的問題。對于Python來說, Matplotlib來說是最著名的會圖庫,它主要用于二維繪圖。它可以讓我們非常快捷的用Python可視化資料。
Pandas
Pandas是Python下最強大的資料分析工具。它包含進階的資料結構和精巧的工具,使得在Python中處理資料非常快速和簡單。Pandas建構與Numpy之上,它使得以Numpy為中心的應用很容易被使用。其最初是被作為金融資料分析工具而開發出來的,由AQR Capital Management公司于2008年4月開發出來并于2009年開源。
Pandas功能非常強大,支援類似與SQL的資料增、删、改、查,并且帶有豐富的資料處理函數,支援靈活的處理缺失資料。
Anaconda
Anaconda是一個用于科學計算的Python發行版,支援Linux、Mac、Windows. 提供了包管理和不同Python環境管理的功能, 可以很友善解決多版本Python問題和各種包安裝問題. Anaconda使用conda指令來進行包管理和虛拟環境管理.
anaconda和conda差別: conda是一個工具,主要是進行包管理和虛拟環境管理. anaconda是一個包含了衆多的package、科學計算工具的集合, 是以我們也稱Anaconda為Python的一個發行版.
# 建立Python版本3.4的環境my-env-py3
conda create --name my-env-py3 python=3.4
# activate激活環境
# Windows指令沒有source
# activate my-env-py3
# Linux & Mac激活指令
source activate my-env-py3
# 檢視版本
python --version
# for Windows
deactivate my-env-py3
# for Linux & Mac
source deactivate my-env-py3
# 删除一個已有的環境
conda remove --name python34 --all
安裝包:
# 安裝第三方包
conda install django=1.8.2
# 解除安裝第三方包
conda uninstall django
為什麼需要jupyter notebook?
在進行資料分析時,我們需要和其他人進行溝通,重制我們整個分析過程,并将說明文字、代碼、圖表、公式、結論都整理在一個文檔中, 也就是說資料分析的過程是一個不斷計算,并且繪圖的工作流程。 顯然傳統的文本編輯器并不能很好滿足我們的需求,我們今天使用一款資料分析編輯器jupyter notebook.
我們以前在編寫代碼的時候,讀者是機器,而不是人,是以我們按照計算機的邏輯思維來編寫程式,我們進行資料分析,讀者就不再是機器,而是人了,是以我們需要從編寫讓機器讀得懂的代碼過渡到人們解說如何讓機器實作我們的想法,其中除了代碼,更多的是叙述性文字、圖表内容。是以資料分析師不僅是一個好程式員還是一個好作家。好作家就需要一款好的編輯器,jupyter notebook 就是一款集程式設計與寫作于一體的效率工具。
說到 Jupyter 你會覺得陌生,但你或多或少聽過鼎鼎大名的 IPython。其實Jupyter 脫胎于 IPython 項目,IPython 顧名思義,是專注于 Python 的項目,但随着項目發展壯大,已經不僅僅局限于 Python 這一種程式設計語言了。Jupyter 的名字就很好地釋義了這一發展過程,它是 Julia、Python 以及 R 語言的組合,字形相近于木星(Jupiter),而且現在支援的語言也遠超這三種了。
jupyter安裝
- 建立虛拟環境
pip install virtualenv
pip install virtualenvwrapper-win
mkvirtualenv data-env-py3
2. 安裝工具包
pip install numpy
pip install matplotlib
pip install pandas # windows可直接安裝whl包
pip install jupyter
3. 打開jupyter notebook
workon data-env-py3
jupyter notebook
顯示效果如下:

入門簡單演練
效果圖如下:
shirt + 回車 --------> 目前代碼全部執行,并跳到下一行
ctr + 回車---------> 隻執行目前行,不跳到下一行
輸入代碼
10+20
import matplotlib.pyplot as plt
plt.plot([1,2,3,4],[2,4,6,8])
plt.show()
這個位置可以選擇marterdang文法
#号和輸入的内容之間要有空格
點選這裡可以給目前的檔案重命名
命名前:
命名後