
為什麼要寫這本書
在我做資料分析教育訓練和咨詢的過程中,經常會有學員來問我,有沒有合适的統計分析方面的參考書可以推薦。被學員問得多了,慢慢地就有了寫本書的沖動,一是畢竟自己寫的書和教育訓練的内容比較配套,二是寫書對自己來說也是一個總結和提高的過程吧。
“理想很豐滿,現實很骨感”,原來覺得自己手裡有不少案例,各種工具的使用也算是比較熟練,寫起書來應該得心應手,進度也會比較快,但是真到開始動手寫作時,才發現并不是那麼簡單。從架構目錄的确定、章節内容的選擇、語言風格的打磨,到分析結果截圖的選擇等,每一個環節都需要細細地思量和斟酌。這本書的寫作使我從2016年4月到11月的這段時間非常疲勞,頸椎病也複發了,因為在寫書的同時,我的資料分析方面的教育訓練并沒有停止。
我在寫作本書的時候,給自己規定了幾個原則:
一是要實用,要能夠解決企業工作中的實際問題。
二是要盡可能地降低讀者上手的難度,那種操作非常繁複、需要強大堅實的統計分析理論基礎,或者需要程式設計才能實作的功能,我都沒有放在本書中。原因很簡單,即使本書講了那些難度比較大的内容,讀者也很難真正應用起來。
三是語言風格盡可能輕松活潑一點,盡量避免很嚴肅、很晦澀的專業術語,我很難做到“寓教于樂”,但還是盡己所能讓本書的閱讀輕松一點吧。
在本書的寫作過程中,我經常提醒自己這三條原則,并且要求自己遵守它們。
簡言之,給讀者帶來一本“有用的、上手比較容易的、讀起來比較輕松的”資料分析書,這就是我寫這本書的原則和動力。
讀者對象
這本書的讀者對象是企事業機關中從事資料分析的非統計專業人士:
企業中的市場部相關人員,包括市場分析人員、産品設計和研發人員、銷售經理等。
企業中的生産部人員,包括生産經理、品質控制經理等。
企業中的财務部人員,包括财務總監、财務經理等。
企業中其他需要經常和各類資料打交道的管理人員和一般從業人員。
如果讀者是高校或者科研院所的教師、學生、科研人員,要從事專業學術論文的撰寫或者縱向科研項目的研究工作,不建議你将本書作為主要的閱讀和學習的書籍,因為使用的工具、模型、方法都會大相徑庭,例如撰寫學術論文經常要使用eviews、stata等專業計量工具,而這些專業計量工具在企業中使用的機率非常低。
如何閱讀本書
本書分為三大部分,第一部分基礎篇(第1章和第2章)主要介紹資料分析的概念、術語、方法、模型等,為後續的内容展開奠定基礎。
第二部分制表篇(第3章到第5章)介紹資料的采集、整理以及常用資料報表的制作。
第三部分資料分析篇(第6章到第14章)占據了本書的大部分篇幅,囊括了常用的、有代表性的、實用的功能,包括資料掃描、資料标注、異常值分析、回歸等。
勘誤和支援
由于作者的水準有限,編寫的時間也很倉促,書中難免會出現一些錯誤或者不準确的地方,懇請讀者批評指正。如果你發現本書有錯誤,或者有其他寶貴意見,請發送郵件到我的郵箱[email protected],我很期待能夠收到你們的真摯回報。
<a href="https://yq.aliyun.com/articles/108926">第2章</a>
<a href="https://yq.aliyun.com/articles/108970">第3章</a>
第4章 資料分析的基礎:制表(上)
4.1 以資料合并為目标的制表
4.1.1 跨工作表合并
4.1.2 跨工作簿合并
4.2 以資料篩選為目标的制表
4.2.1 普通資料篩選
4.2.2 進階篩選
4.2.3 計算篩選
4.2.4 函數篩選
4.3 以獲得概要資料為目标的制表
4.3.1 分類彙總方法
4.3.2 資料透視表彙總
第5章 資料分析的基礎:制表(下)
5.1 “七個百分比”讓你懂得大部分表格類型
5.1.1 行總計的百分比
5.1.2 列總計的百分比
5.1.3 全部總計的百分比
5.1.4 父行(列)的百分比
5.1.5 累計占比
5.1.6 環比
5.1.7 同比
5.2 分組功能經常讓分析峰回路轉
5.2.1 文本的分組
5.2.2 等步長的資料分組
5.2.3 不等步長的資料分組
5.2.4 日期型的分組
5.3 随意生成各種派生名額
5.3.1 添加字段
5.3.2 添加項
5.4 從大資料庫中挑選要分析的資料:microsoft query
5.5 強大的sql
5.5.1 sql的基本文法
5.5.2 sql的應用
第6章 資料掃描:給資料做體檢
6.1 在excel中給資料做掃描
6.2 spss中給資料做掃描
6.3 在modeler中給資料做掃描
6.4 其他相應的名額
第7章 資料标注:給資料上色
7.1 大資料塊的整體标注
7.1.1 突出顯示單元格規則
7.1.2 特殊資料選取規則
7.2 根據業務邏輯在資料中标注上色
7.2.1 資料條、色階、圖示集的應用
7.2.2 規則的了解
7.2.3 根據業務需求改變規則
7.3 采用公式實作複雜強大的資料标注
7.3.1 了解邏輯表達式的含義
7.3.2 複雜邏輯公式的應用
7.4 如何在一張表格中實作多種标注規則
7.4.1 多規則的應用
7.4.2 如何了解“遇真則停止”
第8章 找到資料中的“特殊分子”
8.1 什麼是異常值
8.2 異常值的判斷标準
8.3 用繪圖技巧找到異常值
8.3.1 散點圖
8.3.2 面闆圖
8.4 用公式函數法發掘異常值
8.5 三倍标準差法
第9章 相關分析與決策樹
9.1 pearson相關
9.1.1 應用場景
9.1.2 輸出名額的解析
9.2 典型相關分析
9.2.1 操作步驟
9.2.2 結果解讀
9.3 決策樹
9.3.1 什麼時候需要用決策樹
9.3.2 決策樹的操作和名額解釋
第10章 聚類
10.1 多元度資料的分類怎麼辦
10.1.1 低次元資料的分類方法
10.1.2 高次元資料的分類需求
10.1.3 常用的聚類操作介紹
10.2 聚類的煩惱1:如何面對數量級差别大的資料
10.3 聚類的煩惱2:如何判斷聚類的品質
第11章 回歸
11.1 如何尋找現有資料的内在規律
11.1.1 什麼是資料拟合
11.1.2 多元線性回歸
11.2 logistic回歸
11.2.1 回歸(客戶“買”與“不買”)
11.2.2 多元logistic回歸(多個品牌的選擇)
11.2.3 多元有序logistic回歸
第12章 關聯分析
12.1 因果關系的弱化
12.2 關聯分析的名額
12.2.1 支援度
12.2.2 置信度
12.2.3 提升度
12.3 什麼樣的資料适合做關聯分析
12.3.1 商超資料
12.3.2 金融資料
12.3.3 生産品質資料
12.4 關聯分析的具體操作
第13章 預測
13.1 什麼是預測,預測的準确度高嗎
13.2 移動平滑
13.3 指數平滑
13.3.1 二次指數平滑
13.3.2 三次指數平滑
13.4 對周期性資料的分解
13.5 arima預測法
第14章 進階繪圖技巧
14.1 怎樣才算圖畫得好
14.2 雙軸圖的技巧和運用
14.3 不同數量級資料的高效對比展示
14.4 資料标簽的妙用
14.5 圖形中的重點标注
14.6 繪圖美學—多點審美素養
14.6.1 整體布局
14.6.2 線型的選擇
14.6.3 色彩對比
後記 資料分析經驗之我見