大資料與機器學習：實踐方法與行業案例導讀

前　　言

不畏浮雲遮望眼，隻緣身在最高層。

—王安石《登飛來峰》

資料科學家 = 統計學家 + 程式員 + 講故事的人 + 藝術家

—shlomo aragmon

本書的創作初衷

大資料方面的書籍可謂琳琅滿目，有的講解理論，有的介紹方法，有的傳播理念。但是，大資料從業人員（如資料工程師、資料分析師、業務分析師、算法設計師等）應該掌握哪些知識與技能，如何應用資料解決現實的業務問題呢？恐怕最能給出答案的還是實際的資料從業者。為此，三位作者基于近10年的資料分析與應用經驗，融合各自在商業銀行、網際網路金融和電商領域的切身體驗，寓理論于實戰，選取多個詳實的案例，站在企業實際應用的角度介紹資料分析應用過程并公布源代碼，并最終形成本書。本書對于讀者開展資料分析工作能夠提供直接幫助，為有志于在大資料領域發展的讀者啟航。

本書特點

本書有三大特點。其一，内容全面，覆寫大資料生态中的資料、基礎平台、分析方法和應用四個領域，對資料應用從業務需求、資料準備、資料分析、挖掘模組化、示範報告、成果應用等全流程進行了詳細闡述；其二，以業務場景為主線，精選銀行和網際網路方面最具代表性的案例，站在資料消費者和分析師的角度，身臨其境地介紹了資料如何産生價值，寓理論于實戰，讓讀者能知其是以然；其三，寫作手法上遵循大道至簡原則，用淺顯的語言介紹複雜的資料分析應用過程，歸納資料分析師乃至資料科學家應該修煉的要點，既關注技術細節，又不拖泥帶水，能為讀者提供直接幫助。

本書定位

本書既可作為資料分析與商業分析人員的入門指引和案頭工具，亦可為統計學、計算機科學、市場營銷等專業研究所學生拓寬視野。

源代碼下載下傳

對書中源代碼感興趣的讀者，可與作者聯系（郵箱：[email protected]）。

目　　錄

前言

第一部分　資料與平台篇

第1章　資料與資料平台

<a href="https://yq.aliyun.com/articles/82606/" target="_blank">1.1　資料的基本形态</a>

第2章　資料體系

<a href="https://yq.aliyun.com/articles/82660/" target="_blank">2.2　資料緩沖區</a>

<a href="https://yq.aliyun.com/articles/82663/" target="_blank">2.5　監控和預警</a>

第3章　實戰：打造資料閉環

<a href="https://yq.aliyun.com/articles/82667/" target="_blank">3.1　資料緩沖區的基本規則</a>

<a href="https://yq.aliyun.com/articles/82669/" target="_blank">3.2　自動加載的流程</a>

<a href="https://yq.aliyun.com/articles/82672/" target="_blank">3.3　自動加載程式的資料庫設計</a>

<a href="https://yq.aliyun.com/articles/82675/" target="_blank">3.4　自動加載程式的多線程實作</a>

第二部分　分　析　篇

第4章　資料預處理 83

4.1　資料表的預處理 84

4.2　變量的預處理 85

4.2.1　缺失值的處理 85

4.2.2　極值的處理 90

4.3　變量的設計 91

4.3.1　暴力衍生 91

4.3.2　交叉升維 92

4.4　變量篩選 95

4.4.1　篩選顯著變量 95

4.4.2　剔除共線性 96

4.5　本章小結 100

第5章　聚類，簡單易用的客戶細分方法 101

5.1　從客戶細分說起 102

5.1.1　為什麼要做客戶細分 102

5.1.2　怎麼做客戶細分 103

5.1.3　聚類分析，無監督的客戶細分方法 107

5.2　譜系聚類 107

5.2.1　基本步驟 107

5.2.2　案例：公司客戶差異化服務 110

5.2.3　譜系聚類方法的題外話 115

5.3　k-means算法 116

5.3.1　基本步驟 116

5.3.2　案例：電商賣家細分 117

5.3.3　k-means算法的題外話 121

5.4　本章小結 121

第6章　關聯規則挖掘，發現産品

加載和交叉銷售機會 122

6.1　銷售的真谛：讓客戶買得更多 123

6.1.1　案例：電商的生意經 123

6.1.2　案例：富國銀行的“商店”經營模式 124

6.1.3　案例總結 125

6.2　交叉銷售 126

6.2.1　為什麼要做交叉銷售 126

6.2.2　怎麼做交叉銷售 126

6.3　關聯規則挖掘，發現交叉銷售機會 128

6.3.1　apriori算法 129

6.3.2　apriori算法的主要名額 129

6.3.3　apriori算法的基本步驟 131

6.4　案例：信用卡産品交叉銷售 131

6.4.1　準備資料 132

6.4.2　sas實作 132

6.4.3　結果分析 133

6.4.4　序列關聯分析 136

6.4.5　結果應用 137

6.5　本章小結 138

第7章　社交網絡分析，從“關系”

的角度分析問題 139

7.1　先看幾張美輪美奂的圖檔 140

7.2　社交網絡分析方法 142

7.2.1　定義 142

7.2.2　應用場景 142

7.2.3　網絡識别算法 143

7.3　案例：電商通過訂單資料識别供應鍊 144

7.3.1　供應鍊及供應鍊金融 144

7.3.2　識别核心企業及其上下遊關系 144

7.3.3　分析結果的業務應用 149

7.4　案例：p2p投資風險防範 151

7.4.1　案例背景 151

7.4.2　防範方法 152

7.5　本章小結 153

第8章　線性回歸，預測客戶價值 155

8.1　數值預測 156

8.2　回歸與拟合 157

8.2.1　回歸就是拟合 157

8.2.2　在excel中添加趨勢線預測 158

8.3　案例：信用卡客戶價值預測 159

8.3.1　确定預測目标 159

8.3.2　準備模組化資料 161

8.3.3　模型拟合 163

8.3.4　模型評估 165

8.4　基于客戶價值分層的業務政策 167

8.5　本章小結 167

第9章　logistic回歸，精準營銷的

主要支撐算法 169

9.1　大資料時代的精準營銷 170

9.1.1　精準營銷 170

9.1.2　基于大資料的精準營銷模式 171

9.1.3　如何做到精準 172

9.2　logistic回歸算法介紹 173

9.2.1　算法原理 173

9.2.2　關鍵步驟 174

9.3　案例：信用卡消費信貸産品的精準營銷 176

9.3.1　案例背景 176

9.3.2　資料準備 176

9.3.3　資料預處理 180

9.3.4　模組化 182

9.3.5　模型評估 185

9.4　預測模型的應用與評估 189

9.5　本章小結 189

第10章　決策樹類算法，反欺詐

模型“專家” 191

10.1　決策樹，重要的分類器 191

10.2　決策樹的關鍵思想 192

10.2.1　理财客戶畫像案例背景 192

10.2.2　關鍵思想一：遞歸劃分 194

10.2.3　關鍵思想二：剪枝 197

10.3　案例：電商盜卡交易風險識别 198

10.3.1　案例背景 198

10.3.2　以sas實作 199

10.3.3　以clementine實作 201

10.3.4　以r實作 204

10.4　随機森林 208

10.5　本章小結 209

第11章　資料可視化，是分析更是

設計 210

11.1　資料示範之道 210

11.1.1　好“色”之圖 211

11.1.2　版式有形 212

11.1.3　資料發聲 214

11.2　個性化地圖 215

11.2.1　案例背景：存款增長率名額展示 215

11.2.2　擷取地理位置的經緯度資料 216

11.2.3　定制地圖背景和圖示 217

11.2.4　生成地圖 220

11.3　文本分析 222

11.3.1　案例：電商的客戶評價分析 222

11.3.2　分詞 223

11.3.3　詞雲制作 224

11.3.4　情感分析 225

11.4　本章小結 227

第三部分　應　用　篇

第12章　标簽系統 231

12.1　認識标簽系統 231

12.2　标簽系統的設計 233

12.2.1　标簽系統的層次結構 233

12.2.2　标簽系統的更新規則 233

12.2.3　機器學習模型轉化為标簽 235

12.3　标簽系統的實作 236

12.3.1　标簽映射表 237

12.3.2　标簽系統的前端實作 238

12.3.3　标簽系統的資料後端實作 238

12.3.4　标簽系統的線上接口實作 242

12.4　本章小結 242

第13章　資料自助營銷平台 244

13.1　資料自助營銷平台的價值所在 245

13.1.1　自動化營銷，提升工作效率 245

13.1.2　降低營銷成本，提升使用者體驗 247

13.1.3　個性化營銷，提升響應率 248

13.1.4　統一管理，便于效果追蹤 249

13.2　資料自助營銷平台的實作原則 249

13.2.1　資料營銷活動的節點 249

13.2.2　資料自助營銷平台的基礎：标簽系統 251

13.2.3　資料自助營銷平台的批量任務 252

13.2.4　實時資料營銷 254

13.3　資料自助營銷平台的場景執行個體 254

13.3.1　客戶生命周期管理 254

13.3.2　用卡激勵計劃 257

13.4　本章小結 260

第14章　基于mahout的個性化推薦系統 261

14.1　mahout的推薦引擎 262

14.1.1　mahout的安裝配置 262

14.1.2　mahout的使用方式 263

14.1.3　協同過濾算法 264

14.1.4　mahout的推薦引擎 265

14.2　規模與效率 268

14.2.1　mahout推薦算法的适用範圍 268

14.2.2　通過分布式解決規模和效率的問題 270

14.3　實作一個推薦系統 275

14.3.1　系統架構 275

14.3.2　推薦系統的重新整理 276

14.3.3　部署一個可用的推薦系統 276

14.4　本章小結 280

第15章　圖計算與社會網絡 281

15.1　社會網絡和屬性圖 282

15.2　spark graphx與neo4j 283

15.2.1　scala程式設計語言 284

15.2.2　cypher查詢語言 285

15.3　使用spark graphx和neo4j處理社會網絡 286

15.3.1　背景說明 286

15.3.2　資料準備 286

15.3.3　spark graphx處理原始網絡 287

15.3.4　neo4j互動式查詢分析 291

15.3.5　更多的應用場景 295

15.4　本章小結 296

大資料與機器學習：實踐方法與行業案例導讀

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希