如何入門大資料

資料科學并沒有一個獨立的學科體系，統計學，機器學習，資料挖掘，資料庫，分布式計算，雲計算，資訊可視化等技術或方法來對付資料。

但從狹義上來看，我認為資料科學就是解決三個問題：

1. data pre-processing;(資料預處理）

2. data interpretation；（資料解讀）

3.data modeling and analysis.（資料模組化與分析）

推薦一個大資料學習群 119599574每天晚上20:10都有一節【免費的】大資料直播課程，專注大資料分析方法,大資料程式設計，大資料倉庫，大資料案例，人工智能,資料挖掘都是純幹貨分享，

這也就是我們做資料工作的三個大步驟：

1、原始資料要經過一連串收集、提取、清洗、整理等等的預處理過程，才能形成高品質的資料；

2、我們想看看資料“長什麼樣”，有什麼特點和規律；

3、按照自己的需要，比如要對資料貼标簽分類，或者預測，或者想要從大量複雜的資料中提取有價值的且不易發現的資訊，都要對資料模組化，得到output。

這三個步驟未必嚴謹，每個大步驟下面可能依問題的不同也會有不同的小步驟，但按我這幾年的經驗來看，按照這個大思路走，資料一般不會做跑偏。

這樣看來，資料科學其實就是門複合型的技術，既然是技術就從程式設計語言談起吧，為了簡練，隻說說R和Python。但既然是薦資料科學方面的書，我這裡就不提R/Python程式設計基礎之類的書了，直接上跟資料科學相關的。

R programming

如果隻是想初步了解一下R語言已經R在資料分析方面的應用，那不妨就看看這兩本：

R in action：我的R語言大資料101。其實對于一個沒有任何程式設計基礎的人來說，一開始就學這本書，學習曲線可能會比較陡峭。但如果配合上一些輔助材料，如官方釋出的R basics，stackoverflow上有tag-R的問題集（Newest ‘r’ Questions），遇到複雜的問題可在上面搜尋，總會找到解決方案的。這樣一來，用這本書拿來入門學習也問題不大。而且這本書作者寫得也比較輕松，緊貼實戰。

Data analysis and graphics using R：使用R語言做資料分析的入門書。這本書的特點也是緊貼實戰，沒有過多地講解統計學理論，是以喜歡通過情境應用來學習的人應該會喜歡這本入門書。而且這本書可讀性比較強，也就是說哪怕你手頭沒電腦寫不了代碼，有事沒事拿出這本書翻一翻，也能讀得進去。

但如果你先用R來從事實實在在的資料工作，那麼上面兩本恐怕不夠，還需要這些：

Modern applied statistics with S：這本書裡統計學的理論就講得比較多了，好處就是你可以用一本書既複習了統計學，又學了R語言。（S/Splus和R的關系就類似于Unix和Linux，是以用S教程學習R，一點問題都沒有）

Data manipulation with R：這本書實務性很強，它教給你怎麼從不同格式的原始資料檔案裡讀取、清洗、轉換、整合成高品質的資料。當然和任何一本注重實戰的書一樣，本書也有豐富的真實資料或模拟資料供你練習。對于真正從事資料處理工作的人來說，這本書的内容非常重要，因為對于任何研究，一項熟練的資料預處理技能可以幫你節省大量的時間和精力。否則，你的研究總是要等待你的資料。

R Graphics Cookbook：想用R做可視化，就用這本書吧。150多個recipes，足以幫你應付絕大多數類型的資料。以我現在極業餘的可視化操作水準來看，R是最容易做出最漂亮的圖表的工具了。

An introduction to statistical learning with application in R：這本書算是著名的the element of statistical learning的姊妹篇，後者更注重統計（機器）學習的模型和算法，而前者所涉及的模型和算法原沒有後者全面或深入，但卻是用R來學習和應用機器學習的很好的入口。

A handbook of statistical analysis using R：這本書内容同樣非常紮實，很多統計學的學生就是用這本書來學習用R來進行統計模組化的。

Python

Think Python，Think Stats，Think Bayes：這是Allen B. Downey寫的著名的Think X series三大卷。其實是三本精緻的小冊子，如果想快速地掌握Python在統計方面的操作，好好閱讀這三本書，認真做習題，答案連結在書裡有。這三本書學通了，就可以上手用Python進行基本的統計模組化了。

Python For Data Analysis：作者是pandas的主要開發者，也正是Pandas使Python能夠像R一樣擁有dataframe的功能，能夠處理結構比較複雜的資料。這本書其實analysis講得不多，說成資料處理應該更合适。掌握了這本書，處理各種糟心的資料就問題不大了。

Introduction to Python for Econometrics, Statistics and Data Analysis：這本書第一章就告訴你要安裝Numpy, Scipy, Matplotlib, Pandas, IPython等等。然後接下來的十好幾章就是逐一介紹這幾個庫該怎麼用。很全面，但讀起來比較枯燥，可以用來當工具書。

Practical Data Analysis：這本書挺奇葩，貌似很暢銷，但作者把内容安排得東一榔頭西一棒子，什麼都講一點，但一個都沒講透。這本書可以作為我們學習資料分析的一個索引，看到哪塊内容有意思，就順着它這個藤去摸更多的瓜。

Python Data Visualization Cookbook：用Python做可視化的教材肯定不少，我看過的也就這一本，覺得還不錯。其實這類書差别都不會很大，咬住一本啃下來就是王道。

Exploratory Data Analysis 和 Data Visualization

Exploratory Data Analysis：John Tukey寫于1977年的經典老教材，是這一領域的開山之作。如今EDA已經是統計學裡的重要一支，但當時還是有很多人對他的工作不屑一顧。可他愛資料，堅信資料可以以一種出人意料的方式呈現出來。正是他的努力，讓資料可視化成為一門無比迷人的技術。但這本書不推薦閱讀了，内容略過時。要想完整地了解EDA，推薦下一本：

Exploratory Data Analysis with MATLAB：這本書雖然标題帶了個MATLAB，但實際上内容幾乎沒怎麼講MATLAB，隻是每講一個方法的時候就列出對應的MATALB函數。這本書的重要之處在于，這是我讀過的講EDA最系統的一本書，除了對visualization有不輸于John Tucky的講解外，對于高維的資料集，通過怎樣的方法才能讓我們從中找到潛在的pattern，這本書也做了詳盡的講解。全書是以案例都有對應的MATALB代碼，而且還提供了GUI（圖形使用者界面）。是以這本書學起來還是相當輕松愉悅的。

Machine Learning & Data Mining

這一塊就不多說了，不是因為它不重要，而是因為它太太太重要。是以這一部分就推兩本書，都是”世界名著“，都比較難讀，需要一點點地啃。這兩本書拿下，基本就算是登堂入室了。其實作為機器學習的延伸和深化，機率圖模型（PGM）和深度學習（deep learning）同樣值得研究，特别是後者現在簡直火得不得了。但PGM偏難，啃K.Daphne那本大作實在太燒腦，也沒必要，而且在資料領域的應用也不算很廣。deep learning目前工業界的步子邁得比學術界的大，各個domain的應用如火如荼，但要有公認的好教材問世則還需時日，是以PGM和deep learning這兩塊就不薦書了。

The Element of Statistical Learning：要學機器學習，如果讓我隻推薦一本書，我就推薦這本巨著。Hastie、Tibshirani、Friedman這三位大牛寫書寫得太用心了，大廈建得夠高夠大，結構也非常嚴謹，而且很有前瞻性，納入了很多前沿的内容，而不僅僅是一部綜述性的教材。（圖表也做得非常漂亮，應該是用R語言的ggplot2做的。）這本書注重講解模型和算法本身，是以需要具備比較紮實的數理基礎，啃起這本書來才不會太吃力。事實上掌握模型和算法的原理非常重要。機器學習（統計學習）的庫現在已經非常豐富，即使你沒有完全搞懂某個模型或算法的原理和過程，隻要會用那幾個庫，機器學習也能做得下去。但你會發現你把資料代進去，效果永遠都不好。但是，當你透徹地了解了模型和算法本身，你再調用那幾個庫的時候，心情是完全不一樣的，效果也不一樣。

Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 資料挖掘的教材汗牛充棟，之是以推薦這本韓家炜爺爺的，是因為雖然他這本書的出發點是應用，但原理上的内容也一點沒有落下，内容非常完整。而且緊跟時代，更新的很快，我看過的是第二版，就已經加進去了social network analysis這種當時的前沿内容。現在已經有第三版了，我還沒看過，但應該也加入了不少新内容。其實這本書并不難讀，隻是篇幅較長，啃起來比較耗時。

其實這兩本書裡單拎出來一塊内容可能又是幾本書的節奏，比如bayesian方法，再拿出兩三本書來講也不為過，我個人用到的比較多，而且也确實有不少好書。但并非是所有data scientist都要用到，是以這一塊就不再細說。

還有一些印象比較深刻的書：

Big Data Glossary：主要講解大資料處理技術及工具，内容涵蓋了NoSQL，MapReduce，Storage，Servers，NLP庫與工具包，機器學習工具包，資料可視化工具包，資料清洗，序列化指南等等。總之，是一本辭典式的大資料入門指導。

Mining of Massive Datasets：這本書是斯坦福大學Web Mining的講義，裡面很多内容與韓家炜的Data Mining那本書重合，但這本書裡詳細地講了MapReduce的設計原理，PageRank（Google創業時期的核心排序算法，現在也在不斷優化更新）講解得也比較詳細。

Developing Analytic Talent：作者是個從事了十幾年資料工作的geek，技術部落格寫得很有個人風格，寫的内容都比較偏門，通常隻有具備相關資料處理經驗的人能體會出來，絲毫不照顧初學者的感受。比如他會談到當資料流更新太快時該怎麼辦，或者MapReduce在什麼時候不好用的問題，才不管你懂不懂相關基礎原理。是以這本書不太适合初學者閱讀。這本書其實是作者的部落格文章的集結，用how to become a data scientist的邏輯把他近幾年的部落格文章串聯了起來。

Past, Present and Future of Statistical Science：這本書是由COPSS（統計學社主席委員會，由國際各大統計學會的帶頭人組成）在50周年出版的一本紀念冊，裡面有50位統計學家每人分别貢獻出的一兩篇文章，有的回憶了自己當年如何走上統計學這條路，有的探讨了一些統計學的根本問題，有的談了談自己在從事的前沿研究，有的則給年輕一代寫下了寄語。非常有愛的一本書。

其它資料

Harvard Data Science：這是H大的Data science線上課，我沒有修過，但口碑很好。這門課需要費用8千刀左右，比起華盛頓大學的4千刀的Data science線上課雖貴一倍，但比斯坦福的14千刀要便宜将近一半（而且斯坦福的更偏計算機）。如果想自學，早有好心人分享了slides: ）和homeworks and solutions:

PyData：PyData是來自各個domain的用Python做資料的人每年舉行一次的聚會，期間會有各路牛人舉行一些規模不大的seminar或workshop，有好心人已經把video上傳到github，有興趣的去認領吧（DataTau/datascience-anthology-pydata · GitHub）

工具

R/Python/MATLAB（必備）：如果是做資料分析和模型開發，以我的觀察來看，使用這三種工具的最多。R生來就是一個統計學家開發的軟體，所做的事也自然圍繞統計學展開。MATLAB雖然算不上是個專業的資料分析工具，但因為很多人不是專業做資料的，做資料還是為了自己的domain expertise（特别是科學計算、信号處理等），而MATLAB又是個強大無比的Domain expertise工具，是以很多人也就順帶讓MATLAB也承擔了資料處理的工作，雖然它有時候顯得效率不高。Python雖然不是做資料分析的專業軟體，但作為一個面向對象的進階動态語言，其開源的生态使Python擁有無比豐富的庫，Numpy, Scipy 實作了矩陣運算/科學計算，相當于實作了MATLAB的功能，Pandas又使Python能夠像R一樣處理dataframe，scikit-learn又實作了機器學習。

SQL（必備）：雖然現在人們都說傳統的關系型資料庫如Oracle、MySQL越來越無法适應大資料的發展，但對于很多人來說，他們每天都有處理資料的需要，但可能一輩子都沒機會接觸TB級的資料。不管怎麼說，不論是用關系型還是非關系型資料庫，SQL語言是必須要掌握的技能，用什麼資料庫視具體情況而定。

MongoDB（可選）：目前最受歡迎的非關系型資料庫NoSQL之一，不少人認為MongoDB完全可以取代mySQL。确實MongoDB友善易用，擴充性強，Web2.0時代的必需品。

Hadoop/Spark/Storm（可選）: MapReduce是目前最著名也是運用最廣泛的分布式計算架構，由Google建立。Hadoop/Spark/storm都是基于MapReduce的架構建立起來的分布式計算系統，要說他們之間的差別就是，Hadoop用硬碟存儲資料，Spark用記憶體存儲資料，Storm隻接受實時資料流而不存儲資料。一言以蔽之，如果資料是離線的，如果資料比較複雜且對處理速度要求一般，就Hadoop，如果要速度，就Spark，如果資料是線上的實時的流資料，就Storm。

OpenRefine（可選）：Google開發的一個易于操作的資料清洗工具，可以實作一些基本的清洗功能。

Tableau（可選）：一個可互動的資料可視化工具，操作簡單，開箱即用。而且圖表都設計得非常漂亮。專業版1999美刀，終身使用。媒體和公關方面用得比較多。

Gephi（可選）：跟Tableau類似，都是那種可互動的可視化工具，不需要程式設計基礎，生成的圖表在美學和設計上也是花了心血的。更擅長複雜網絡的可視化。

如何入門大資料

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark