天天看點

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

作者:IT技術管理那些事兒

關于大資料分析的案例,網上諸如啤酒與尿布的例子實在是太多了,但是關于資料挖掘的案例很少會有人關注。這裡我分享兩個關于資料挖掘的案例,都是我們團隊做出的真實案例,希望能夠展現出資料挖掘強大效果之一二。

一、資料分析預測電影票房

19年春節檔關注的電影一共有《瘋狂外星人》、《流浪地球》、《飛馳人生》、《新喜劇之王

》四部,而關于這幾部電影的票房,我們的團隊在電影上映一周前就做了出了預測:

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

截止到2月12日早上9點,我們再來看一下首周票房對比結果:

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

除了《流浪地球》這匹黑馬殺出重圍之外(挖掘算法也沒想到國産科幻電影也有翻身的一天),其他電影的預測結果與實際結果幾乎完全吻合!

那麼,我們是怎麼用資料挖掘預測電影票房的呢?簡而言之思路就是先根據曆史票房變化預測出春節檔總票房,然後根據各導演、演員制作的曆史電影品質、票房情況、SEO情況等預測出各電影票房占比,之後綜合預測出各電影的實際票房。

1、擷取資料

從m1095、票房網、豆瓣網等擷取電影票房、品質、屬性等資料,如下圖:

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

擷取資料如下:

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

影響電影票房的三個重要因素:電影品質、電影宣傳力度、檔期電影總票房。

2、用算法工具進行預測

使用FineBI的智能時序預測功能預測出2019年春節檔首周總票房為76億,預測步驟如下圖:

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

3、預測電影品質,進而預測電影在該檔期的票房占比

如何使用曆史資料來預測電影品質?對于電影來講不變的就是那些導演與演員,導演的水準與演員的水準基本決定電影品質進而影響電影票房。

為了客觀衡量導演、演員水準,根據曆史電影評分、導演資訊、演員資訊、票房資訊、電影類型資訊、評價資訊等特征進行組合最終共有74個特征,再結合曆史票房資料等通過權重算法分析得到四部電影的票房占比情況,處理後的資料如下:

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

4、結合SEO、市場響應等優化票房占比

電影票房還與SEO等相關,我們找尋了百度指數、微信指數、淘票票指數等資料,如下圖:

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

從曆史資料發現這些指數與電影票房呈正相關關系,也就是指數越高票房越高,加入這些指數後, 使用算法重新進行預測得到我們最後的票房預測結果如下:

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

結果不言而喻,依靠FineBI

資料工具算出的最小誤差僅僅隻有0.365%!

二、資料分析應用于店鋪選址,預測銷售額

衣架服飾是一家大型的品牌服裝企業,每年都會在全國開設許多門店,那這店鋪的選址怎麼做呢? 一般的做法是組建一個選址團隊,到現場進行實地考察,然後根據粗略統計的統計,預測一下這個地方的銷售量會怎麼樣,然後對比分析之後靠經驗選擇一個位址。但這種方法成本大,效率低,誤差大,而且非常仰仗經驗。

為了解決這個問題,衣架服飾希望能夠用更科學的方法優化店鋪選址,于是我們的項目團隊就想到了資料挖掘,用下面幾步讓問題迎刃而解:

1、資料處理:

衣架原有的資料包括店鋪基礎資料以及舊店鋪的曆史銷售資料,項目團隊首先對這些已有的資料進行格式化統一,然後收集了原始資料沒有的人流量、消費水準、消費時尚等資料,将擷取的資料根據業務與後續算法實施來進行預處理,比如異常值删除、缺失值填補、資料标準化等處理。

如下圖,是使用lof算法進行異常值篩選的過程:

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

2、特征工程與模型建構

所謂特征工程就是與預測結果相關的特征(名額)組合,也就是與新店鋪相關的銷售額特征組合。 該項目的原始資料加上結合業務知識生成的組合特征與leakage特征,建構的特征工程共計80餘個,通過CFS、MRMR、MBF等方法綜合分析,去除相關性權重不高的特征,最終剩餘40餘個。

然後建立算法模型,适合該項目的算法有決策樹、随機森林、回歸、XGBOST等。最後通過模型準确率以及模型與業務的契合度對比,選擇了随機森林作為模型算法。

3、模型優化

模型優化主要是在找到模型可改進的地方之後所做的事情,比如模型算法的參數調整、特征工程調整等。該項目中模型優化過程除了參數調整,主要就是依據業務,進行特征工程的調整以及資料清洗。比如業務研究過程中發現新的相關特征,需要将其加入特征工程。

4、得出結果

在該項目中,将特征與銷售額的相關性用權重來表示,權重越高表示該特征與銷售額的相關性越強,權重結果如下:

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

利用建立的模型預測出某個新店鋪一年的銷售額,預測如下:

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

5、誤差分析

預測的結果究竟準确不準确呢?團隊将新店鋪銷售額拿來與人為預測銷售額、實際銷售額做了個誤差分析,以此來衡量店鋪銷量預測誤差。如下圖所示,人為預測月平均誤差為8.08萬,算法預測月平均誤差為1.478萬,人為預測誤差大概為算法預測誤差6倍。算法預測最小誤差僅300元,預測精度最高為99.7%!

終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!
注:以上資料挖掘案例都是依靠FineBI工具的資料分析功能實作的,還有很多類似的例子,說明資料分析完全可以應用到我們生活的各個方面,實作資料的最大價值化!
終于有人把資料挖掘講明白了, 這2個案例從0到1講清分析思路!

繼續閱讀