天天看點

資料之魅:基于開源工具的資料分析

《資料之魅:基于開源工具的資料分析》

基本資訊

作者: (美)雅奈特(Janert, K. P.)

譯者: 黃權 陸昌輝 鄒雪梅 費柳鳳

出版社:清華大學出版社

ISBN:9787302290988

上架時間:2012-7-11

出版日期:2012 年7月

開本:16開

頁碼:1

版次:1-1

所屬分類: 計算機 > 計算機科學理論與基礎知識 > 數值計算 > 綜合

資料之魅:基于開源工具的資料分析

更多關于 》》》《資料之魅:基于開源工具的資料分析》

内容簡介

書籍

計算機書籍

  《資料之魅:基于開源工具的資料分析》結合作者多年來從事資料分析工作的豐富經驗,闡述了資料分析所涉及的概念和方法。本書共四部分19 章,主題包括如何通過圖表來觀察資料,如何通過各種模組化方法來分析資料,然後着重闡述如何進行資料挖掘,最後強調資料分析在商業和金融等領域的實際應用。本書包含大量的模拟過程及結果展示,并通過執行個體來闡述如何使用開源工具來進行資料分析。通過本書的閱讀,讀者可以清楚地了解這些方法的實際用法及用途。

  《資料之魅:基于開源工具的資料分析》結構合理,通俗易懂,适合資料分析愛好者和從業者閱讀,也适合以科學計算為工具的科研人員參考。同時,本書還适用于計算機科學、數學、工程技術和其他相關專業大學或研究所學生的資料分析課程,是一本不錯的參考書。

目錄

《資料之魅:基于開源工具的資料分析》

第1 章導論1

資料分析1

本書内容2

關于講習班 3

關于數學4

需要具備的知識 6

本書不涉及的内容6

第ⅰ部分圖表:觀察資料

第2 章單一變量:形狀和

分布 11

資料點和抖動圖 12

直方圖和核密度估計 14

直方圖15

核密度估計 19

(選學)如何選擇最優帶寬 22

累積分布函數23

(選學)機率圖分布和qq 圖

分布的對比 25

秩序圖和上升圖 30

僅用于适當時機:彙總統計量

和箱形圖 33

彙總統計量 33

box-and-whisker 圖 36

(講習班)numpy 38

numpy 實踐 38

numpy 詳解 41

擴充閱讀 45

第3 章兩個變量:建立關系 47

散點圖 47

克服噪聲:平滑 48

樣條 50

loess51

示例 52

殘差 54

其他觀點及提醒55

對數圖 57

傾斜 61

線性回歸以及諸如此類的方法 62

描述重要資訊 66

圖形分析與圖形示範68

(講習班)matplotlib 69

互動式使用matplotlib 70

案例學習:matplotlib 與

loess73

控制屬性 74

matplotlib 對象模型及結構 76

目錄xii

零碎知識 77

擴充閱讀 78

第4 章以時間為變量:

時序分析 79

示例 79

任務 83

需求和現實 84

平滑處理 84

移動平均法 85

指數平滑法 86

不要忽視顯而易見的東西 90

相關函數 91

示例 92

實作上的問題 93

(選學)過濾器和卷積 95

(講習班)scipy.signal 96

擴充閱讀 98

第5 章多變量:圖形的多變量

分析 99

假色圖100

概覽:多值圖 105

散點圖矩陣105

協作圖 107

變種.108

組成問題.110

組成的改變110

多元組成:樹形圖和

馬賽克圖112

新穎的曲線類型116

辨別符116

平行坐标圖117

互動式探索120

查詢和縮放121

連接配接和塗層121

大遊覽與投影尋蹤121

工具.122

(講習班)多變量圖形工具123

r 123

實驗工具124

python 的chaco 庫124

擴充閱讀.125

第6 章插曲:資料分析會話 127

資料分析會話127

(講習班)gnuplot 軟體136

擴充閱讀.138

第ⅱ部分分析:資料模組化

第7 章推算和粗略計算141

推算的原理 142

估計大小143

建立關聯145

使用數字146

10 的幂146

小擾動147

對數.148

目錄xiii

更多示例149

我所知道的一些常見事(物)

的相關數字151

這些數字是否足夠好? 151

準備工作:可行性和成本 153

完成之後:引用和

呈現數字154

(選學)進一步探索攝動理論和

誤差傳播 155

誤差傳播156

(講習班)gnu 科學庫(gsl)158

擴充閱讀 161

第8 章縮放參數模型.163

模型163

模組化 164

模型的運用和誤用 164

參數的縮放 165

縮放參數165

示例:次元參數 167

示例:優化問題 169

示例:成本模型 170

(選學)縮放參數與

量綱分析172

其他理論174

平均場近似 175

背景知識和其他示例176

常見的時間演變方案 178

無限增長和衰減現象178

限制增長:邏輯斯谛方程.180

振蕩.181

案例學習:多少台伺服器才是

最好的? .182

為什麼要模組化? 184

(講習班)sage.184

擴充閱讀.188

第9 章關于機率模型的讨論 191

9.1 二項分布和伯努利試驗191

精确的結果192

利用伯努利試驗建立平均場

模型194

9.2 高斯分布和中心極限定理195

中心極限定理.195

中心項與尾項.197

為什麼高斯分布如此實用? 198

(選學)高斯積分.199

幂律分布和非正常統計學201

幂律分布的用法203

(選學)期望值為無限時的

分布204

接下來的研究.206

其他分布.206

幾何分布207

泊松分布207

對數正态分布.209

特殊用途的分布211

目錄xiv

(選學)案例學習——随時間變化的單

一通路者數量 211

(講習班)幂律分布215

擴充閱讀 219

第10 章你真正需要了解的

經典統計學知識221

起源221

統計學的定義 223

從統計學角度解釋 226

示例:公式測驗

vs 圖解法 229

控制實驗vs 觀察研究 230

實驗設計232

前景 234

(選學)貝葉斯統計——

另一種觀點 235

用頻率論來解釋機率235

用貝葉斯方法來了解機率 236

貝葉斯資料分析: 一個實際有

效的例子238

貝葉斯推理:總結與讨論.241

(講習班)r 語言243

擴充閱讀.249

第11 章插叙:數學大搜捕——

大腳怪和最小二

乘等253

11.1 如何平均均值.253

辛普森(simpson)悖論.254

标準差.256

如何計算258

(選學)應該選擇哪一個259

(選學)标準誤差.259

最小二乘.260

統計參數估計.261

函數逼近263

擴充閱讀.264

第ⅲ部分計算:資料挖掘

第12 章模拟267

熱身問題 267

蒙特卡洛模拟 270

組合問題270

獲得結果分布 272

優點和缺點275

重新采樣方法 276

拔靴法 277

拔靴法适用于哪些情況?.278

拔靴變量280

(講習班)simpy 離散事件模拟280

simpy 簡介281

最簡單的排隊過程282

(選學)排隊理論.285

運作simpy 模拟288

小結290

目錄xv

擴充閱讀 291

第13 章找出簇293

簇由什麼組成? 293

一種不同的觀點296

距離計算和相似度計算 298

常見的距離和相似度

計算方法300

聚類方法 304

中心探索法305

樹形構造器307

鄰居生長器309

前期處理和後期處理 311

規模的規範化 311

類的屬性和評估 311

其他想法 314

具體案例:超市購物籃的

分析 316

提醒319

(講習班)pycluster 和c 聚類庫 320

擴充閱讀 324

第14 章一木見林:

找出重要屬性327

主成分分析法328

動機.328

(選學)理論330

解釋.333

計算.334

實用觀點335

雙标圖336

可視化技術337

多元尺度法338

網絡圖339

柯霍南圖.339

(講習班)用r 進行pca342

擴充閱讀.348

線性代數349

第15 章插曲:當資料不成

比例地增長時351

一個真實的故事353

一些建議.354

map/reduce 如何356

(講習班)生成排列357

擴充閱讀.358

第ⅳ部分應用:資料的使用

第16 章報表、商務智能和

儀表闆361

商務智能 362

報表 364

企業名額和儀表闆 369

關于名額計劃的建議370

資料的品質問題373

資料的可用性.373

資料的一緻性.375

(講習班)berkeley db 和sqlite .376

目錄xvi

berkeley db 377

sqlite 379

擴充閱讀 381

第17 章金融計算與模組化383

貨币的時間價值384

一次性支付:未來值和

現值 384

多筆付款:複利 386

複利的計算技巧 387

概覽:現金流分析和

淨現值 389

計劃成本和機會成本中的

不确定性 391

用賬戶的期望值來考慮

不确定性391

機會成本393

成本概念及貶值394

直接成本和間接成本394

固定成本和可變成本396

資本開支與營運成本397

是否應該加以關注? 398

這些就是全部嗎? 399

(講習班)報紙經銷商問題 400

(選學)精确解402

擴充閱讀 403

報紙經銷商問題 404

第18 章預測分析.405

預測分析的主題406

一些分類術語407

分類算法.408

基于執行個體的分類和最近鄰

分類算法409

貝葉斯分類器.409

回歸.413

支援向量機414

決策樹和基于規則的

分類器416

其他分類算法.418

流程419

內建方法:bagging 和

boosting 419

估計預測誤差.420

類不平衡問題.421

私家秘訣.423

統計學習的本質424

(講習班)自己編寫的兩個

分類器.426

擴充閱讀.431

第19 章結語:事實并非

現實433

附錄a 科學計算與資料分析的

程式設計環境435

附錄b 應用:微積分447

附錄c 使用資料485

索引499

本圖書資訊來源:中國互動出版網

資料之魅:基于開源工具的資料分析