<b>前 言</b>
<b></b>
不畏浮雲遮望眼,隻緣身在最高層。
—王安石《登飛來峰》
資料科學家 = 統計學家 + 程式員 + 講故事的人 + 藝術家
—shlomo aragmon
本書的創作初衷
大資料方面的書籍可謂琳琅滿目,有的講解理論,有的介紹方法,有的傳播理念。但是,大資料從業人員(如資料工程師、資料分析師、業務分析師、算法設計師等)應該掌握哪些知識與技能,如何應用資料解決現實的業務問題呢?恐怕最能給出答案的還是實際的資料從業者。為此,三位作者基于近10年的資料分析與應用經驗,融合各自在商業銀行、網際網路金融和電商領域的切身體驗,寓理論于實戰,選取多個詳實的案例,站在企業實際應用的角度介紹資料分析應用過程并公布源代碼,并最終形成本書。本書對于讀者開展資料分析工作能夠提供直接幫助,為有志于在大資料領域發展的讀者啟航。
本書特點
本書有三大特點。其一,内容全面,覆寫大資料生态中的資料、基礎平台、分析方法和應用四個領域,對資料應用從業務需求、資料準備、資料分析、挖掘模組化、示範報告、成果應用等全流程進行了詳細闡述;其二,以業務場景為主線,精選銀行和網際網路方面最具代表性的案例,站在資料消費者和分析師的角度,身臨其境地介紹了資料如何産生價值,寓理論于實戰,讓讀者能知其是以然;其三,寫作手法上遵循大道至簡原則,用淺顯的語言介紹複雜的資料分析應用過程,歸納資料分析師乃至資料科學家應該修煉的要點,既關注技術細節,又不拖泥帶水,能為讀者提供直接幫助。
本書定位
本書既可作為資料分析與商業分析人員的入門指引和案頭工具,亦可為統計學、計算機科學、市場營銷等專業研究所學生拓寬視野。
源代碼下載下傳
對書中源代碼感興趣的讀者,可與作者聯系(郵箱:[email protected])。
<b> 目 錄</b>
前言
第一部分 資料與平台篇
第1章 資料與資料平台
<a href="https://yq.aliyun.com/articles/82606/" target="_blank">1.1 資料的基本形态</a>
<a href="https://yq.aliyun.com/articles/82655/" target="_blank">1.2 資料平台</a>
<a href="https://yq.aliyun.com/articles/82656/" target="_blank">1.3 應用系統</a>
<a href="https://yq.aliyun.com/articles/82657" target="_blank">1.4 本章小結</a>
第2章 資料體系
<a href="https://yq.aliyun.com/articles/82658/" target="_blank">2.1 資料閉環</a>
<a href="https://yq.aliyun.com/articles/82660/" target="_blank">2.2 資料緩沖區</a>
<a href="https://yq.aliyun.com/articles/82661/" target="_blank">2.3 etl</a>
<a href="https://yq.aliyun.com/articles/82662/" target="_blank">2.4 作業排程</a>
<a href="https://yq.aliyun.com/articles/82663/" target="_blank">2.5 監控和預警</a>
<a href="https://yq.aliyun.com/articles/82665/" target="_blank">2.6 本章小結</a>
第3章 實戰:打造資料閉環
<a href="https://yq.aliyun.com/articles/82667/" target="_blank">3.1 資料緩沖區的基本規則</a>
<a href="https://yq.aliyun.com/articles/82669/" target="_blank">3.2 自動加載的流程</a>
<a href="https://yq.aliyun.com/articles/82672/" target="_blank">3.3 自動加載程式的資料庫設計</a>
<a href="https://yq.aliyun.com/articles/82675/" target="_blank">3.4 自動加載程式的多線程實作</a>
<a href="https://yq.aliyun.com/articles/82677/" target="_blank">3.5 本章小結</a>
第二部分 分 析 篇
第4章 資料預處理 83
4.1 資料表的預處理 84
4.2 變量的預處理 85
4.2.1 缺失值的處理 85
4.2.2 極值的處理 90
4.3 變量的設計 91
4.3.1 暴力衍生 91
4.3.2 交叉升維 92
4.4 變量篩選 95
4.4.1 篩選顯著變量 95
4.4.2 剔除共線性 96
4.5 本章小結 100
第5章 聚類,簡單易用的客戶細分方法 101
5.1 從客戶細分說起 102
5.1.1 為什麼要做客戶細分 102
5.1.2 怎麼做客戶細分 103
5.1.3 聚類分析,無監督的客戶細分方法 107
5.2 譜系聚類 107
5.2.1 基本步驟 107
5.2.2 案例:公司客戶差異化服務 110
5.2.3 譜系聚類方法的題外話 115
5.3 k-means算法 116
5.3.1 基本步驟 116
5.3.2 案例:電商賣家細分 117
5.3.3 k-means算法的題外話 121
5.4 本章小結 121
第6章 關聯規則挖掘,發現産品
加載和交叉銷售機會 122
6.1 銷售的真谛:讓客戶買得更多 123
6.1.1 案例:電商的生意經 123
6.1.2 案例:富國銀行的“商店”經營模式 124
6.1.3 案例總結 125
6.2 交叉銷售 126
6.2.1 為什麼要做交叉銷售 126
6.2.2 怎麼做交叉銷售 126
6.3 關聯規則挖掘,發現交叉銷售機會 128
6.3.1 apriori算法 129
6.3.2 apriori算法的主要名額 129
6.3.3 apriori算法的基本步驟 131
6.4 案例:信用卡産品交叉銷售 131
6.4.1 準備資料 132
6.4.2 sas實作 132
6.4.3 結果分析 133
6.4.4 序列關聯分析 136
6.4.5 結果應用 137
6.5 本章小結 138
第7章 社交網絡分析,從“關系”
的角度分析問題 139
7.1 先看幾張美輪美奂的圖檔 140
7.2 社交網絡分析方法 142
7.2.1 定義 142
7.2.2 應用場景 142
7.2.3 網絡識别算法 143
7.3 案例:電商通過訂單資料識别供應鍊 144
7.3.1 供應鍊及供應鍊金融 144
7.3.2 識别核心企業及其上下遊關系 144
7.3.3 分析結果的業務應用 149
7.4 案例:p2p投資風險防範 151
7.4.1 案例背景 151
7.4.2 防範方法 152
7.5 本章小結 153
第8章 線性回歸,預測客戶價值 155
8.1 數值預測 156
8.2 回歸與拟合 157
8.2.1 回歸就是拟合 157
8.2.2 在excel中添加趨勢線預測 158
8.3 案例:信用卡客戶價值預測 159
8.3.1 确定預測目标 159
8.3.2 準備模組化資料 161
8.3.3 模型拟合 163
8.3.4 模型評估 165
8.4 基于客戶價值分層的業務政策 167
8.5 本章小結 167
第9章 logistic回歸,精準營銷的
主要支撐算法 169
9.1 大資料時代的精準營銷 170
9.1.1 精準營銷 170
9.1.2 基于大資料的精準營銷模式 171
9.1.3 如何做到精準 172
9.2 logistic回歸算法介紹 173
9.2.1 算法原理 173
9.2.2 關鍵步驟 174
9.3 案例:信用卡消費信貸産品的精準營銷 176
9.3.1 案例背景 176
9.3.2 資料準備 176
9.3.3 資料預處理 180
9.3.4 模組化 182
9.3.5 模型評估 185
9.4 預測模型的應用與評估 189
9.5 本章小結 189
第10章 決策樹類算法,反欺詐
模型“專家” 191
10.1 決策樹,重要的分類器 191
10.2 決策樹的關鍵思想 192
10.2.1 理财客戶畫像案例背景 192
10.2.2 關鍵思想一:遞歸劃分 194
10.2.3 關鍵思想二:剪枝 197
10.3 案例:電商盜卡交易風險識别 198
10.3.1 案例背景 198
10.3.2 以sas實作 199
10.3.3 以clementine實作 201
10.3.4 以r實作 204
10.4 随機森林 208
10.5 本章小結 209
第11章 資料可視化,是分析更是
設計 210
11.1 資料示範之道 210
11.1.1 好“色”之圖 211
11.1.2 版式有形 212
11.1.3 資料發聲 214
11.2 個性化地圖 215
11.2.1 案例背景:存款增長率名額展示 215
11.2.2 擷取地理位置的經緯度資料 216
11.2.3 定制地圖背景和圖示 217
11.2.4 生成地圖 220
11.3 文本分析 222
11.3.1 案例:電商的客戶評價分析 222
11.3.2 分詞 223
11.3.3 詞雲制作 224
11.3.4 情感分析 225
11.4 本章小結 227
第三部分 應 用 篇
第12章 标簽系統 231
12.1 認識标簽系統 231
12.2 标簽系統的設計 233
12.2.1 标簽系統的層次結構 233
12.2.2 标簽系統的更新規則 233
12.2.3 機器學習模型轉化為标簽 235
12.3 标簽系統的實作 236
12.3.1 标簽映射表 237
12.3.2 标簽系統的前端實作 238
12.3.3 标簽系統的資料後端實作 238
12.3.4 标簽系統的線上接口實作 242
12.4 本章小結 242
第13章 資料自助營銷平台 244
13.1 資料自助營銷平台的價值所在 245
13.1.1 自動化營銷,提升工作效率 245
13.1.2 降低營銷成本,提升使用者體驗 247
13.1.3 個性化營銷,提升響應率 248
13.1.4 統一管理,便于效果追蹤 249
13.2 資料自助營銷平台的實作原則 249
13.2.1 資料營銷活動的節點 249
13.2.2 資料自助營銷平台的基礎:标簽系統 251
13.2.3 資料自助營銷平台的批量任務 252
13.2.4 實時資料營銷 254
13.3 資料自助營銷平台的場景執行個體 254
13.3.1 客戶生命周期管理 254
13.3.2 用卡激勵計劃 257
13.4 本章小結 260
第14章 基于mahout的個性化推薦系統 261
14.1 mahout的推薦引擎 262
14.1.1 mahout的安裝配置 262
14.1.2 mahout的使用方式 263
14.1.3 協同過濾算法 264
14.1.4 mahout的推薦引擎 265
14.2 規模與效率 268
14.2.1 mahout推薦算法的适用範圍 268
14.2.2 通過分布式解決規模和效率的問題 270
14.3 實作一個推薦系統 275
14.3.1 系統架構 275
14.3.2 推薦系統的重新整理 276
14.3.3 部署一個可用的推薦系統 276
14.4 本章小結 280
第15章 圖計算與社會網絡 281
15.1 社會網絡和屬性圖 282
15.2 spark graphx與neo4j 283
15.2.1 scala程式設計語言 284
15.2.2 cypher查詢語言 285
15.3 使用spark graphx和neo4j處理社會網絡 286
15.3.1 背景說明 286
15.3.2 資料準備 286
15.3.3 spark graphx處理原始網絡 287
15.3.4 neo4j互動式查詢分析 291
15.3.5 更多的應用場景 295
15.4 本章小結 296