天天看點

利用Python進行資料分析(第二版)早鳥版介紹

暑期回家學車的時候,我為了保持自己的學習狀态,于是去看《利用Python進行資料分析》。為了能夠運作書上的代碼,我去GitHub上下載下傳它們随書資料,不經意間發現這本書要在今年10月份出第二版了,圖書位址是 http://shop.oreilly.com/product/0636920050896.do

。感謝搜尋引擎,我下載下傳到了early bird version,等出正式版的時候,我再去美亞買.

第一版發行的時候是2012年,差不多5年前了,這期間Python的開源資料分析庫發展勢頭迅猛, 作者開發的pandas也增加了許多新的功能。為了适應這種變化,他對第一版進行了大刀闊斧的修改,于是就有了第二版。

作者簡介

Wes McKinney 資深資料分析專家,對各種Python庫(包括NumPy、pandas、matplotlib以及IPython等)等都有深入研究,并在大量的實踐中積累了豐富的經驗。撰寫了大量與Python資料分析相關的經典文章,被各大技術社群争相轉載,是Python和開源技術社群公認的權威人物之一。開發了用于資料分析的著名開源Python庫——pandas,廣獲使用者好評。在建立Lambda Foundry(一家緻力于企業資料分析的公司)之前,他曾是AQR Capital Management的定量分析師

第一版的評價

《利用Python進行資料分析》中文版第一版由機械工業出版社發行在2013年,到現在已經4年過去。豆瓣評分8.5分,京東好評率98%,摘取一段豆瓣書評,

總的來說Python提供了很多友善,但是這種友善還是需要付出一定的學習成本的。使用Pandas可以把Python基本當作R用 用NumPy和SymPy還有SciPy把Python當作Matlab用。但是目前所有這些子產品都還在開發階段是以有很多問題需要解決,使用者體驗并不是非常友好,尤其是資料類型和能否改變資料值等等細節會讓人特别累

四年過去了,書評說的問題大部分都被解決了。但是我個人建議,最好是一邊學習機率論和統計分析的同時學習R和Python,畢竟工具都是類似的,解決問題的思路或許更重要。

主要變動

  • 所有代碼(包括Python教程)都更新到了Python3.6。 第一版用的是Python2.7
  • 更新Python安裝介紹,改用Anaconda以及其他所需包,之前是Enthought Python Distribution
  • 更新為2017年釋放的pandas 1.0
  • 新增了“pandas進階應用”,之前隻有“Numpy進階應用”
  • 簡單介紹了如何使用statsmodel和scikit-learn

全書架構:

整本書大架構沒有太多修改, 部分章節與時俱進的被淘汰了,部分章節由于内容增加被拆分了。

  • 前言: 緬懷John D. Hunter, 他開發了matplotlib,建立了良好的Python社群。

    PS: 早鳥版還沒有寫緻謝呢。

  • 第一章: 準備工作,介紹為什麼使用Python,以及如何在不同機器上安裝Python。
  • 第二章:Python文法基礎: IPython和Jupyter notebook. 這一節介紹Python的基本文法(原本是放在附錄)和Ipython基本用法(進階用法被放在附錄了)
  • 第三章: 内置資料結構,函數和檔案系統
  • 第四章: Numpy基礎
  • 第五章: pandas起步
  • 第六章: 資料加載,存儲和檔案格式
  • 第七章: 資料清洗和準備
  • 第八章: 資料規整化:Join(連接配接), combine(合并), reshape(重塑)
  • 第九章: 繪圖和可視化
  • 第十章: 資料聚合和分組運算
  • 第十一章:時間序列
  • 第十二章: Numpy進階應用
放棄第一版的引言一章,對于初學者這是一個巨大的改進,我當年沒基礎一看就懵了。在介紹Numpy之前放了Python文法基礎,更加的新手友好了。 第七章和第八章是由之前的一章拆分出來。

我的感想

僅僅從目錄上看,這一版本其實對于初學者而言,其實是更加友好的,當然目前是英文,對于英文不好的同學不太友好。不過如果你想從事資料分析,那麼英文水準必然要提高,不然等别人翻譯官方文檔,新的特性也就過時了。

糾結Python2和Python3的初學者也不需要太糾結,如果你要進行資料分析,你要用的Python包都已經有python3版本,也就是說整個Python社群正在慢慢向Python3遷移。