天天看點

資料挖掘與資料化營運實戰.導讀

 本書是目前有關資料挖掘在資料化營運實踐領域比較全面和系統的著作,也是諸多資料挖掘書籍中為數不多的穿插大量真實的實踐應用案例和場景的著作,更是創造性地針對資料化營運中不同分析挖掘課題類型,推出一一對應的分析思路集錦和相應的分析技巧內建,為讀者提供“菜單化”實戰錦囊的著作。作者結合自己資料化營運實踐中大量的項目經驗,用通俗易懂的“非技術”語言和大量活潑生動的案例,圍繞資料分析挖掘中的思路、方法、技巧與應用,全方位整理、總結、分享,幫助讀者深刻領會和掌握“以業務為核心,以思路為重點,以分析技術為輔佐”的資料挖掘實踐應用寶典。

    全書共19章,分為三個部分:基礎篇(第1~4章)系統介紹了資料分析挖掘和資料化營運的相關背景、資料化營運中“協調配合”的核心,以及實踐中常見分析項目類型;實戰篇(第6~13章)主要介紹實踐中常見的分析挖掘技術的實用技巧,并對大量的實踐案例進行了全程分享展示;思想意識篇(第5章,第14~19章)主要是有關資料分析師的責任、意識、思維的培養和提升的總結和探索,以及一些有效的項目質控制度和經典的方法論介紹。

推 薦 序

    所謂,自知者明。

    一個資料分析師,在面對海量資料時,偶爾把自己也當做對象去分析、思考、總結,才能成為一位有那麼點兒味道的資料分析師,才能不斷地審視、提升分析水準,才能在資料分析的道路上走得更遠。

    本書就是作者盧輝對過去10年資料挖掘職業生涯的自省、總結、提煉。

    以前看的資料挖掘書籍,很難看到國内企業的完整執行個體。而本書分享的資料化營運實戰案例都是來自阿裡巴巴b2b近3年來的商業實踐,

有立竿見影的案例,也有充滿了波折和反複的案例。面對這些實戰中的挫折和曲折,作者分享了如何調整思路、調整方法,如何與業務方一起尋找新方案,最終如何達成滿意的商業應用效果。這些分享都非常真實、非常可貴,相信這些完整的實戰案例将給你全新的閱讀體驗,還你一個真實清楚的有關資料挖掘商業應用的原貌,也會對讀者今後的資料挖掘商業實踐起到很好的啟迪和參考作用。

    從這個角度看,本書就是作者摸索出的一系列有關資料挖掘和資料化營運的規律,是作者對資料分析師有效工作方法的架構和總結。

    如果你是新入行(或者有興趣進入資料分析行業)的讀者,這本書對你是非常有參考和指導意義的:幫助你盡快入門,盡快成長。如果你是已具有一定工作經驗的資料分析專業人士,本書亦可作為一面“鏡子”,去引發你對于“自己的思考”、“自己的總結”。

    通過閱讀本書,讀者朋友們可以問問自己:

     資料分析挖掘的技巧,掌握了多少?

     書中的實戰案例,有實操過嗎?

     資料分析師對分析/資料的态度,你是否具備?

     如何有效管理團隊?

    如果上述某些方面你沒有想過,這本書會給你有意義的啟迪。

    最後,請允許我再唠叨些資料的未來吧:

    關于分析師

    不久的将來,或就是現在,資料分析師将直面新的挑戰(也是一次轉型機會):在原有分析師職業定位上,為了與業務應用更加貼合,開始逐漸融入産品經理“角色”:善于總結、善于提煉、善于推而廣之、善于把自己的分析“産品化”。要做到這些,就要求資料分析師必須對資料的了解更透徹,對商業的了解更深入。

    在成熟階段,資料分析師們将是一群具備了商業了解、資料分析、商業應用思考這三大核心能力的綜合體。

    關于資料品質

    在資料化營運道路上,有不少難題亟待解決。其中最棘手、最突出的就是資料品質。

    企業的資料化商業實踐中,“資料給自己用”與“資料給别人去用”是兩個完全不同難度的課題,好比在家做幾道家常菜和開餐廳,後者對于口味品質更為嚴格苛刻,食客們的眼睛都盯着呢。

    這本書寫了“自己使用資料、分析資料”的心得;在未來,當資料可以很容易地被大家使用的時候,我們會發現資料的力量已經滲透到每個人的決策環節裡了。

車品覺

阿裡巴巴資料委員會會長

前  言

為什麼要寫這本書

    自從2002年第一次接觸 “資料挖掘”(data mining)這個新名詞以來,轉眼之間我已經在資料挖掘商業應用相關領域度過了11年。這11年裡我既見識了國外資料挖掘商業應用如火如荼地開展;又經曆了從21世紀開始,國内企業在資料挖掘商業應用中的摸索起步,到如今方興未艾的局面;更有幸在經曆了傳統行業的資料挖掘商業應用之後,投身到網際網路行業(當今資料分析商業應用熱火朝天、發展最快,并且對資料和資料挖掘的商業應用依賴性最強的行業)的資料挖掘商業實踐中。這11年是我職業生涯中最為重要的一段時光,從個人生存的角度來說,我找到了謀生和養家糊口的飯碗—資料挖掘工作;從個人歸屬的角度來說,我很幸運地碰到了職業與興趣的重合點。

    在國内,“資料挖掘”作為一門複合型應用學科,其在商業領域的實踐應用及推廣隻有十幾年的時間,在此期間,國内雖然陸續出版了一些相關的書籍,但是絕大多數都是基于理論或者國外經驗來闡述的,少有針對國内企業相關商業實戰的詳細介紹和分享,更缺乏從資料分析師的角度對商業實戰所進行的總結和歸納。是以,從商業應用出發,基于大量的商業實戰案例而不是基于理論探讨的資料挖掘應用書籍成為當今圖書市場和廣大“資料挖掘”學習者的共同需求。

    同時,在有幸與資料挖掘商業實踐相伴11年之後,我也想稍微放慢些腳步,正如一段長途跋涉之後需要停下腳步,整理一路經曆的收獲和感悟一樣,我希望将自己一路走來的心得與體會、經驗與教訓、挫折與成績整理出來。

    基于以上原因,我決定從資料挖掘的商業需求和商業實戰出發,結合我10多年來在不同行業(尤其是最近4年在網際網路行業)的大量資料挖掘商業實戰項目,将自己這些年來積累的經驗和總結分享出來,希望能夠起到抛磚引玉的作用,為對資料挖掘商業實踐感興趣的朋友、愛好者、資料分析師提供點滴的參考和借鑒。同時,鑒于“資料化營運”在當今大資料時代已經成為衆多(以後必将越來越多)現代企業的普遍經營戰略,相信本書所分享的大量有關資料化營運的商業實踐項目也可以為企業的管理層、決策層提供一定程度的參考和借鑒。

    我相信,本書總結的心得與體會,可以推動自己今後的工作,會成為我的财富;同時,這些心得與體會對于部分資料分析師來說也可以起到不同程度的參考和借鑒作用;對于廣大對資料挖掘商業應用感興趣的初學者來說也未嘗不是一種寶貴經驗。

    我是從機械制造技術與裝置這個與“資料挖掘”八竿子打不着的專業轉行到資料挖掘商業應用行業的,這與目前國内絕大多數的資料分析挖掘專業人士的背景有較大差别(國内絕大多數資料分析挖掘專業人士主要來自統計專業、數學專業或者計算機專業)。我的職業道路很曲折,之是以放棄了自己沒興趣的機械制造技術與裝置專業,是因為自己喜歡市場營銷。有幸在國外學習市場營銷專業時了解并親近了國外市場營銷中的核心和基石—市場營銷資訊學(marketing informatics)。當然,這是國外10多年前的說法,換成行業内與時俱進的新說法,就是時下耳熟能詳的“資料分析挖掘在市場營銷領域的商業實踐應用”)。說這麼多,其實隻是想告訴有緣的對資料挖掘商業實踐感興趣的朋友,

“以業務為核心,以思路為重點,以挖掘技術為輔佐”就是該領域的有效成長之路。

    很多初學者總以為掌握了某些分析軟體,就可以成為資料分析師。其實,一個成功的資料挖掘商業實踐,核心的因素不是技術,而是業務了解和分析思路。本書自始至終都在力圖用大量的事實和案例來證明“以業務為核心,以思路為重點,以挖掘技術為輔佐”才是資料挖掘商業實踐成功的寶典。

    另外,現代企業面對大資料時代的資料化營運絕不僅僅是資料分析部門和資料分析師的事情,它需要企業各部門的共同參與,更需要企業決策層的支援和推動。

讀者對象

    對資料分析和資料挖掘的商業實踐感興趣的大專院校師生、對其感興趣的初學者。

    網際網路行業對資料分析挖掘商業實踐感興趣的營運人員以及其他專業的人士。

    實施資料化營運的現代企業的營運人員以及其他專業的人士,尤其是企業的管理者、決策者(資料化營運戰略的制定者和推動者)。

    各行各業的資料分析師、資料挖掘師。

勘誤和支援

    由于作者水準和能力有限,編寫時間倉促,不妥之處在所難免,在此懇請讀者批評指正。作者有關資料挖掘商業實踐應用的專業部落格

“資料挖掘 人在旅途”位址為http://shzxqdj.blog.163.com,歡迎讀者和資料挖掘商業實踐的愛好者不吝賜教。另外,如果您有關于資料挖掘商業實踐的任何話題,也可以發送郵件到郵箱 [email protected] ,期待你們的回報意見。

如何閱讀本書

    本書分為19章。

    第1~4章為基礎和背景部分,主要介紹資料分析挖掘和資料化營運的相關背景、資料化營運中“協調配合”的本質,以及實踐中常見的分析項目類型。

    第6~13章是資料分析挖掘中的具體技巧和案例分享部分,主要介紹實踐中常見的分析挖掘技術的實用技巧,并對大量的實踐案例進行了全程分享展示。

    第5章,第14~19章是有關資料分析師的責任、意識、思維的培養和提升的總結與探索,以及一些有效的項目質控制度和經典的方法論。

    本書幾乎每章都會用至少一個完整翔實的實戰案例來進行說明、反複強化“以業務為核心,以思路為重點,以挖掘技術為輔佐”,希望能給讀者留下深刻印象,因為這是資料挖掘商業實踐成功的寶典。

緻謝

    首先要感謝機械工業出版社華章公司的楊繡國(lisa)編輯,沒有您的首倡和持續的鼓勵,我不會想到要寫這樣一本來自實踐的書,也不會順利地完成這本書。寫作過程中,您的幫助讓我對“編輯”這個職業有了新的認識,編輯就是作者背後的無名英雄。在本書出版之際,我向lisa表達我深深的感謝和祝福。同時感謝朱秀英編輯在本書後期編輯過程中付出的辛勞,您的專業、敬業和細心使得書稿中諸多不完善之處得以修正和提高。

    作為一名30多歲才從機械工程師轉行,進入資料挖掘及其商業實踐的遲到者,我在資料挖掘的道路上一路走來,得到了無數貴人的幫助和提攜。

    感謝我的啟蒙導師,加拿大dalhousie

university的資料挖掘課程教授tony schellinck。他風趣幽默的授課風格,嚴謹紮實的專業功底,随手拈來的大量親身經曆的商業實戰案例,以及對待學生的耐心和熱情,讓我作為一名外國學生能有效克服語言和生活環境的挑戰,比較順利地進入資料挖掘的職業發展道路。

    感謝回國後給我第一份專業工作機會的前ccg集團(communication central group)商業智能應用事業部總經理justin

jencks。中國通justin在我們一起共事的那段日子裡,果敢放手讓我嘗試多個跨行業的探索性商業應用項目,給了我許多寶貴的機會,使我迅速熟悉本土市場,積累了不同行業的實戰案例,這些對我的專業成長非常重要。

    感謝4年前給我機會,讓我得以從傳統行業進入網際網路行業的阿裡巴巴集團itbu事業部的前商業智能部門總監李紅偉(鳳梨)。進入網際網路行業之後,我才深深懂得作為一名資料分析師,相比傳統行業來說,網際網路行業有太多的機會可以去嘗試不同的項目,去親曆數不清的“一竿子插到底”的落地應用,去學習面對日新月異的需求和挑戰。

    在本書的編寫過程中,得到了淘寶網的商品推薦進階算法工程師陳凡(微網誌位址為hppt://weibo.com/bicloud)和阿裡巴巴b2b的資料倉庫專家蒿亮(微網誌位址為http://weibo.com/airjam;e-mail:[email protected])熱情而專業的幫助和支援。陳凡友情編寫了本書的3.11節,蒿亮友情編寫了本書的1.4.1節和13.1節。

    感謝一路走來,在項目合作和交流中給我幫助和支援的各位前輩、上司、朋友和夥伴,包括:上海第一醫藥連鎖經營有限公司總經理顧詠晟先生、新華信國際資訊咨詢北京有限公司副總裁歐萬德先生(alvin)、上海聯都集團的創始人馮鐵軍先生、上海通方管理咨詢有限公司總經理李步峰女士和總監張國安先生、鼎和保險公司的張霖霏先生、盛大文學的資料分析經理張仙鶴先生、途牛網進階營運專家焦延伍先生,以及來自阿裡巴巴的資料分析團隊的上司和夥伴(資深總監車品覺先生、進階專家範國棟先生、資深經理張高峰先生、資料分析專家樊甯先生、資深資料分析師曹俊傑先生、資料分析師宮尚寶先生,等等,尤其要感謝阿裡巴巴資料委員會會長車品覺老師在百忙中熱情地為本書作推薦序,并在序言裡為廣大讀者分享了資料分析師目前面臨的最新機遇和挑戰),以及這個倉促列出的名單之外的更多前輩、上司、朋友和夥伴。

    感謝我的父母、姐姐、姐夫和外甥,他們給予了我一貫的支援和鼓勵。

    我将把深深的感謝給予我的妻子王豔和女兒露璐。露璐雖然隻是國中一年級的學生,但是在本書的寫作過程中,她多次主動放棄外出玩耍,幫我改稿,給我提建議,給我鼓勵,甚至還為本書設計了一款封面,在此向露璐同學表達我衷心的感謝!而我的妻子,則将家裡的一切事情打理得井井有條,使我可以将充分的時間和精力投入本書的寫作中。謹以此書獻給她們!

盧輝

中國

杭州

第1章 什麼是資料化營運 / 1

1.1 現代營銷理論的發展曆程 / 2

1.1.1 從4p到4c / 2

1.1.2 從4c到3p3c / 3

1.2 資料化營運的主要内容 / 5

1.3 為什麼要資料化營運 / 7

1.4 資料化營運的必要條件 / 8

1.4.1 企業級海量資料存儲的實作 / 8

1.4.2 精細化營運的需求 / 10

1.4.3 資料分析和資料挖掘技術的有效應用 /

11

1.4.4 企業決策層的倡導與持續支援 / 11

1.5 資料化營運的新現象與新發展 / 12

1.6 關于網際網路和電子商務的最新資料 / 14

第2章 資料挖掘概述 / 15

2.1 資料挖掘的發展曆史 / 16

2.2 統計分析與資料挖掘的主要差別 / 16

2.3 資料挖掘的主要成熟技術以及在資料化營運中的主要應用 / 18

2.3.1 決策樹 / 18

2.3.2 神經網絡 / 19

2.3.3 回歸 / 21

2.3.4 關聯規則 / 22

2.3.5 聚類 / 23

2.3.6 貝葉斯分類方法 / 24

2.3.7 支援向量機 / 25

2.3.8 主成分分析 / 26

2.3.9 假設檢驗 / 27

2.4 網際網路行業資料挖掘應用的特點 / 28

第3章 資料化營運中常見的資料分析項目類型 / 30

3.1 目标客戶的特征分析 / 31

3.2 目标客戶的預測(響應、分類)模型 /

32

3.3 營運群體的活躍度定義 / 33

3.4 使用者路徑分析 / 34

3.5 交叉銷售模型 / 35

3.6 資訊品質模型 / 37

3.7 服務保障模型 / 39

3.8 使用者(買家、賣家)分層模型 / 40

3.9 賣家(買家)交易模型 / 44

3.10 信用風險模型 / 44

3.11 商品推薦模型 / 45

3.11.1 商品推薦介紹 / 45

3.11.2 關聯規則 / 45

3.11.3 協同過濾算法 / 50

3.11.4 商品推薦模型總結 / 54

3.12 資料産品 / 55

3.13 決策支援 / 56

繼續閱讀