《資料之魅:基于開源工具的資料分析》
基本資訊
作者: (美)雅奈特(Janert, K. P.)
譯者: 黃權 陸昌輝 鄒雪梅 費柳鳳
出版社:清華大學出版社
ISBN:9787302290988
上架時間:2012-7-11
出版日期:2012 年7月
開本:16開
頁碼:1
版次:1-1
所屬分類: 計算機 > 計算機科學理論與基礎知識 > 數值計算 > 綜合

更多關于 》》》《資料之魅:基于開源工具的資料分析》
内容簡介
書籍
計算機書籍
《資料之魅:基于開源工具的資料分析》結合作者多年來從事資料分析工作的豐富經驗,闡述了資料分析所涉及的概念和方法。本書共四部分19 章,主題包括如何通過圖表來觀察資料,如何通過各種模組化方法來分析資料,然後着重闡述如何進行資料挖掘,最後強調資料分析在商業和金融等領域的實際應用。本書包含大量的模拟過程及結果展示,并通過執行個體來闡述如何使用開源工具來進行資料分析。通過本書的閱讀,讀者可以清楚地了解這些方法的實際用法及用途。
《資料之魅:基于開源工具的資料分析》結構合理,通俗易懂,适合資料分析愛好者和從業者閱讀,也适合以科學計算為工具的科研人員參考。同時,本書還适用于計算機科學、數學、工程技術和其他相關專業大學或研究所學生的資料分析課程,是一本不錯的參考書。
目錄
《資料之魅:基于開源工具的資料分析》
第1 章導論1
資料分析1
本書内容2
關于講習班 3
關于數學4
需要具備的知識 6
本書不涉及的内容6
第ⅰ部分圖表:觀察資料
第2 章單一變量:形狀和
分布 11
資料點和抖動圖 12
直方圖和核密度估計 14
直方圖15
核密度估計 19
(選學)如何選擇最優帶寬 22
累積分布函數23
(選學)機率圖分布和qq 圖
分布的對比 25
秩序圖和上升圖 30
僅用于适當時機:彙總統計量
和箱形圖 33
彙總統計量 33
box-and-whisker 圖 36
(講習班)numpy 38
numpy 實踐 38
numpy 詳解 41
擴充閱讀 45
第3 章兩個變量:建立關系 47
散點圖 47
克服噪聲:平滑 48
樣條 50
loess51
示例 52
殘差 54
其他觀點及提醒55
對數圖 57
傾斜 61
線性回歸以及諸如此類的方法 62
描述重要資訊 66
圖形分析與圖形示範68
(講習班)matplotlib 69
互動式使用matplotlib 70
案例學習:matplotlib 與
loess73
控制屬性 74
matplotlib 對象模型及結構 76
目錄xii
零碎知識 77
擴充閱讀 78
第4 章以時間為變量:
時序分析 79
示例 79
任務 83
需求和現實 84
平滑處理 84
移動平均法 85
指數平滑法 86
不要忽視顯而易見的東西 90
相關函數 91
示例 92
實作上的問題 93
(選學)過濾器和卷積 95
(講習班)scipy.signal 96
擴充閱讀 98
第5 章多變量:圖形的多變量
分析 99
假色圖100
概覽:多值圖 105
散點圖矩陣105
協作圖 107
變種.108
組成問題.110
組成的改變110
多元組成:樹形圖和
馬賽克圖112
新穎的曲線類型116
辨別符116
平行坐标圖117
互動式探索120
查詢和縮放121
連接配接和塗層121
大遊覽與投影尋蹤121
工具.122
(講習班)多變量圖形工具123
r 123
實驗工具124
python 的chaco 庫124
擴充閱讀.125
第6 章插曲:資料分析會話 127
資料分析會話127
(講習班)gnuplot 軟體136
擴充閱讀.138
第ⅱ部分分析:資料模組化
第7 章推算和粗略計算141
推算的原理 142
估計大小143
建立關聯145
使用數字146
10 的幂146
小擾動147
對數.148
目錄xiii
更多示例149
我所知道的一些常見事(物)
的相關數字151
這些數字是否足夠好? 151
準備工作:可行性和成本 153
完成之後:引用和
呈現數字154
(選學)進一步探索攝動理論和
誤差傳播 155
誤差傳播156
(講習班)gnu 科學庫(gsl)158
擴充閱讀 161
第8 章縮放參數模型.163
模型163
模組化 164
模型的運用和誤用 164
參數的縮放 165
縮放參數165
示例:次元參數 167
示例:優化問題 169
示例:成本模型 170
(選學)縮放參數與
量綱分析172
其他理論174
平均場近似 175
背景知識和其他示例176
常見的時間演變方案 178
無限增長和衰減現象178
限制增長:邏輯斯谛方程.180
振蕩.181
案例學習:多少台伺服器才是
最好的? .182
為什麼要模組化? 184
(講習班)sage.184
擴充閱讀.188
第9 章關于機率模型的讨論 191
9.1 二項分布和伯努利試驗191
精确的結果192
利用伯努利試驗建立平均場
模型194
9.2 高斯分布和中心極限定理195
中心極限定理.195
中心項與尾項.197
為什麼高斯分布如此實用? 198
(選學)高斯積分.199
幂律分布和非正常統計學201
幂律分布的用法203
(選學)期望值為無限時的
分布204
接下來的研究.206
其他分布.206
幾何分布207
泊松分布207
對數正态分布.209
特殊用途的分布211
目錄xiv
(選學)案例學習——随時間變化的單
一通路者數量 211
(講習班)幂律分布215
擴充閱讀 219
第10 章你真正需要了解的
經典統計學知識221
起源221
統計學的定義 223
從統計學角度解釋 226
示例:公式測驗
vs 圖解法 229
控制實驗vs 觀察研究 230
實驗設計232
前景 234
(選學)貝葉斯統計——
另一種觀點 235
用頻率論來解釋機率235
用貝葉斯方法來了解機率 236
貝葉斯資料分析: 一個實際有
效的例子238
貝葉斯推理:總結與讨論.241
(講習班)r 語言243
擴充閱讀.249
第11 章插叙:數學大搜捕——
大腳怪和最小二
乘等253
11.1 如何平均均值.253
辛普森(simpson)悖論.254
标準差.256
如何計算258
(選學)應該選擇哪一個259
(選學)标準誤差.259
最小二乘.260
統計參數估計.261
函數逼近263
擴充閱讀.264
第ⅲ部分計算:資料挖掘
第12 章模拟267
熱身問題 267
蒙特卡洛模拟 270
組合問題270
獲得結果分布 272
優點和缺點275
重新采樣方法 276
拔靴法 277
拔靴法适用于哪些情況?.278
拔靴變量280
(講習班)simpy 離散事件模拟280
simpy 簡介281
最簡單的排隊過程282
(選學)排隊理論.285
運作simpy 模拟288
小結290
目錄xv
擴充閱讀 291
第13 章找出簇293
簇由什麼組成? 293
一種不同的觀點296
距離計算和相似度計算 298
常見的距離和相似度
計算方法300
聚類方法 304
中心探索法305
樹形構造器307
鄰居生長器309
前期處理和後期處理 311
規模的規範化 311
類的屬性和評估 311
其他想法 314
具體案例:超市購物籃的
分析 316
提醒319
(講習班)pycluster 和c 聚類庫 320
擴充閱讀 324
第14 章一木見林:
找出重要屬性327
主成分分析法328
動機.328
(選學)理論330
解釋.333
計算.334
實用觀點335
雙标圖336
可視化技術337
多元尺度法338
網絡圖339
柯霍南圖.339
(講習班)用r 進行pca342
擴充閱讀.348
線性代數349
第15 章插曲:當資料不成
比例地增長時351
一個真實的故事353
一些建議.354
map/reduce 如何356
(講習班)生成排列357
擴充閱讀.358
第ⅳ部分應用:資料的使用
第16 章報表、商務智能和
儀表闆361
商務智能 362
報表 364
企業名額和儀表闆 369
關于名額計劃的建議370
資料的品質問題373
資料的可用性.373
資料的一緻性.375
(講習班)berkeley db 和sqlite .376
目錄xvi
berkeley db 377
sqlite 379
擴充閱讀 381
第17 章金融計算與模組化383
貨币的時間價值384
一次性支付:未來值和
現值 384
多筆付款:複利 386
複利的計算技巧 387
概覽:現金流分析和
淨現值 389
計劃成本和機會成本中的
不确定性 391
用賬戶的期望值來考慮
不确定性391
機會成本393
成本概念及貶值394
直接成本和間接成本394
固定成本和可變成本396
資本開支與營運成本397
是否應該加以關注? 398
這些就是全部嗎? 399
(講習班)報紙經銷商問題 400
(選學)精确解402
擴充閱讀 403
報紙經銷商問題 404
第18 章預測分析.405
預測分析的主題406
一些分類術語407
分類算法.408
基于執行個體的分類和最近鄰
分類算法409
貝葉斯分類器.409
回歸.413
支援向量機414
決策樹和基于規則的
分類器416
其他分類算法.418
流程419
內建方法:bagging 和
boosting 419
估計預測誤差.420
類不平衡問題.421
私家秘訣.423
統計學習的本質424
(講習班)自己編寫的兩個
分類器.426
擴充閱讀.431
第19 章結語:事實并非
現實433
附錄a 科學計算與資料分析的
程式設計環境435
附錄b 應用:微積分447
附錄c 使用資料485
索引499
本圖書資訊來源:中國互動出版網