大資料時代,掌握處理資料的技能是必要的,書單包括資料清洗+資料挖掘+資料分析……
1、資料清洗入門與實踐
作者:Megan Squire
譯者:任政委
★ 真實事例講解資料清洗入門!
★ 真實項目鍛煉實踐資料清洗!
《幹淨的資料:資料清洗入門與實踐》從檔案格式、資料類型、字元編碼等基本概念講起,通過真實的示例,探讨如何提取和清洗關系型資料庫、網頁檔案和PDF文檔中的資料。最後提供了兩個真實的項目,讓讀者将所有資料清洗技術付諸實踐,完成整個資料科學過程。
2、資料科學入門
作者:Joel Grus
譯者:高蓉 韓波
★ Google資料科學家作品!
★ 資料科學基本知識的重量級讀本!
《資料科學入門》從零開始講解資料科學工作,教授資料科學工作所必需的黑客技能,并帶領讀者熟悉資料科學的核心知識——數學和統計學。 作者選擇了功能強大、簡單易學的Python語言環境,親手搭建工具和實作算法,并精心挑選了注釋良好、簡潔易讀的實作範例。書中涵蓋的所有代碼和資料都可以在GitHub上下載下傳。
通過閱讀本書,你可以:
• 學到一堂Python速成課;
• 學習線性代數、統計和機率論的基本方法,了解它們是怎樣應用在資料科學中的;
• 掌握如何收集、探索、清理、轉換和操作資料;
• 深入了解機器學習的基礎;
• 運用k-近鄰、樸素貝葉斯、線性回歸和邏輯回歸、決策樹、神經網絡和聚類等各種資料模型;
• 探索推薦系統、自然語言處理、網絡分析、MapReduce和資料庫。
3、Python網絡資料采集
作者:Ryan Mitchell
譯者:陶俊傑 陳小莉
《Python網絡資料采集》采用簡潔強大的Python語言,全面介紹網絡資料采集技術,教你從不同形式的網絡資源中自由地擷取資料。你将學會如何使用Python腳本和網絡API一次性采集并處理成千上萬個網頁上的資料。書中内容還包括分析原始資料、用網絡爬蟲測試網站等。還提供了詳細的代碼示例。
“這本書中的工具和示例幫我輕松地将一些重複性工作自動化了,我可以将省下來的時間用于解決更有意思的問題。這是一本實用手冊,非常适合用來解決實際工作中的問題。”
——Eric VanWyk,美國歐林工程學院電子計算機工程師
4、洞悉資料:用可視化方法發掘資料真義
作者:Hunter Whitney
譯者:劉雲濤
★ 多學科、多元度、清晰全面地了解資料和資料可視化!
《洞悉資料:用可視化方法發掘資料真義》包含各種插圖、名人名言和現實生活中的例子,以及商業分析、醫療、網絡監控、安全和遊戲等領域的案例分析,來示範可視化如何讓資料變得更清晰、更全面,通過對資料可視化的廣泛用途和适用性的讨論,來了解它如何讓資料變得更加讓人容易接受和了解。
“這本書的重點在于提供了解資料的不同視角。我們如何了解這本書中的資訊完全在于我們自己的視角。我認為這本書的主題是保持開放的心态,這樣才能看到了解資訊的全新機遇,它絕不是片面的說明文。”
——亞馬遜讀者評論
5、決策知識自動化:大資料時代的商業決策分析方法
作者:Alan N. Fish
譯者:王飛躍 王曉 鄭心湖
★ 知名科學家王飛躍譯著,柴天佑等院士聯名推薦!
《決策知識自動化:大資料時代的商業決策分析方法》是大資料商業實踐手冊,通過大量來源于流程自動化的主流應用場景,聚焦于企業業務流程中經營決策的知識自動化這一主題,向讀者展示如何在實踐中應用決策管理系統更高效地管理項目。 本書适合各企業CEO、CIO、IT架構師以及一切對知識自動化理論感興趣的讀者。
“Fish博士提出的收集、模組化與管理決策需求的方法行之十分有效。對于任何想要建立決策管理系統,或是高效地以決策為中心進行形勢分析和開展商業自動化的組織、團體或個人,本書都是必讀之選。”
——James Taylor,Decision Management Solutions公司CEO、首席顧問
6、社會媒體挖掘
作者:Reza Zafarani , Mohammad Ali Abbasi , Huan Liu
譯者:劉挺 秦兵 趙妍妍
★ 掌握基本原理和方法,從火熱的社會媒體中挖掘真義!
《社會媒體挖掘》整合了社會媒體、社會網絡分析以及資料挖掘的相關知識,為學生、從業者、研究人員和項目經理了解社會媒體挖掘的基礎知識和潛能,提供了一個友善的平台。本書介紹了社會媒體資料獨有的問題,并闡述了網絡分析以及資料挖掘中的基本概念、新出現的問題和有效的算法。 書中涵蓋了不同難度的練習題,可以幫助讀者在社會媒體資料挖掘的不同場景中了解和應用相關的概念、原理以及方法。
7、雲資料中心網絡技術
作者:Gary Lee
譯者:唐富年
★ 由英特爾公司内部專家撰寫,介紹支撐雲資料中心的前沿網絡技術!
《雲資料中心網絡技術》聚焦于資料中心内部的網絡,所讨論的話題集中在大型雲資料中心内部組網所需的裝置、軟體和标準。主要内容包括:雲計算和雲端網絡互連概述,資料中心的演變,交換結構技術,雲資料中心網絡拓撲結構,網絡虛拟化,軟體定義網絡,等等。 本書适合雲計算網絡、網絡建設、網絡管理、系統內建行業的開發人員、技術工程師等閱讀。
8、人人都是資料分析師:Tableau應用實戰
作者:劉紅閣 王淑娟 溫融冰
★ 基于9.1版本,采用實際案例,深度講解核心功能!
★ Tableau亞太區副總裁、埃森哲大中華區董事總經理傾情作序!
★ 特斯拉、百度、亞馬遜等資料分析師聯袂推薦!
★ 簡單易用,拖放成圖,無需統計、計算機背景,即可進行可視化分析,分秒間讀取,★ 快速引擎處理,幫你看見并讀懂大資料!
《人人都是資料分析師:Tableau應用實戰》包括資料連接配接與編輯、圖形展示與編輯功能,如何與R等工具進行內建,如何在伺服器上進行釋出管理等内容,而且廣泛覆寫資料擷取與管理、基礎與進階圖形分析、地圖分析、互動分析與資料挖掘、圖表內建整合與分享釋出等主要内容,友善大家快速掌握靈活分析方法與技術。
“本書通過真實的案例,闡述了一個完全不同于以往的資料分析方法論。它展示了領先企業如何讓商業智能不再局限于少數技術人員,讓多數人都掌握自助分析,讀懂資料創造更大的價值。”
——JY Pook, Tableau亞太區副總裁
9、Spark快速大資料分析
作者:Holden Karau , Andy Konwinski , Patrick Wendell , Matei Zaharia
譯者:王道遠
★ Spark開發者及核心成員共同打造!
《Spark快速大資料分析》講解了網絡大資料時代應運而生的、能高效迅捷地分析處理資料的工具——Spark,它帶領讀者快速掌握用 Spark收集、計算、簡化和儲存海量資料的方法,學會互動、疊代和增量式分析,解決分區、資料本地化和自定義序列化等問題。可以讓資料科學家和工程師即刻上手。你能學到如何使用簡短的代碼實作複雜的并行作業,還能了解從簡單的批處理作業到流處理以及機器學習等應用。
10、Spark進階資料分析
作者:Sandy Ryza , Uri Laserson , Sean Owen , Josh Wills
譯者:龔少成
★ Cloudera公司資料科學家團隊攜手打造,教你用Spark進行大規模資料分析!
★ 使用Spark進行大規模資料分析的實戰寶典!
這是一本實用手冊,四位作者均是Cloudera公司的資料科學家,他們聯袂展示了利用Spark進行大規模資料分析的若幹模式,而且每個模式都自成一體。他們将Spark、統計學方法和真實資料集結合起來,通過執行個體向讀者講述了怎樣解決分析型問題。
《Spark進階資料分析》首先介紹了Spark及其生态系統,接着詳細介紹了将分類、協同過濾及異常檢查等常用技術應用于基因學、安全和金融領域的若幹模式。如果你對機器學習和統計學有基本的了解,并且會用Java、Python或Scala程式設計,這些模式将有助于你開發自己的資料應用。
更多書訊盡在圖靈社群