<b>2.4 網際網路行業資料挖掘應用的特點</b>
相對于傳統行業而言,網際網路行業的資料挖掘和資料化營運有如下的一些主要特點:
資料的海量性。網際網路行業相比傳統行業第一個差別就是收集、存儲的資料是海量的,這一方面是因為網際網路的使用已經成為普通人日常生活和工作中不可或缺的一部分,另一方面更是因為使用者網絡行為的每一步都會被作為網絡日志記錄下來。海量的資料、海量的字段、海量的資訊,尤其是海量的字段,使得分析之前對于分析字段的挑選和排查工作顯得無比重要,無以複加。如何大浪淘沙挑選變量則為重中之重,對此很難一言以蔽之的進行總結,還是用三分技術,七分業務來了解吧。本書從第7~12章,幾乎每章都用大量的篇幅讨論如何在具體的分析課題和項目中選擇變量、評估變量、轉換變量,乃至如何通過清洗後的核心變量完成最終的分析結論(挖掘模型)。
資料分析(挖掘)的周期短。鑒于網際網路行業白熱化的市場競争格局,以及該行業相對成熟的進階資料化營運實踐,該行業的資料分析(挖掘)通常允許的分析周期(項目周期)要明顯短于傳統行業。行業技術應用飛速發展,産品和競争一日千裡,都使該行業的資料挖掘項目的時間進度比傳統行業的項目模式快得多。一方面要保證挖掘結果的起碼品質,另一方面要滿足這個行業超快的行業節奏,這也使得傳統的挖掘分析思路和步調必須改革和升華,進而具有鮮明的internet色彩。
資料分析(挖掘)成果的時效性明顯變短。由于網際網路行業的使用者行為相對于傳統行業而言變化非常快,導緻相應的資料分析挖掘成果的時效性也比傳統行業明顯縮短。舉例來說,網際網路行業的産品更新換代很多是以月為機關的,新産品層出不窮,老産品要及時下線,是以,針對具體産品的資料分析(挖掘)成果的時效性也明顯變短;或者說,使用者行為變化快,網絡環境變化快,導緻模型的維護和優化的時間周期也明顯變短,傳統行業裡的“使用者流失預測模型”可能隻需要每年更新優化一次,但是在網際網路行業裡類似的模型可能3個月左右就有必要更新優化了。
網際網路行業新技術、新應用、新模式的更新換代相比于傳統行業而言更加迅速、周期更短、更加具有颠覆性,相應地對資料分析挖掘的應用需求也更為苛刻,且要多樣化。以中國網際網路行業的發展為例,作為第一代網際網路企業的代表,新浪、搜狐、雅虎等門戶網站的web 1.0模式(傳統媒體的電子化)從産生到被以google、百度等搜尋引擎企業的web 2.0模式(制造者與使用者的合一)所超越,前後不過10年左右的時間,而目前這個web 2.0模式已經逐漸有被以微網誌為代表web 3.0模式(sns模式)超越的趨勢。具體到資料分析所服務的網際網路業務和應用來說,從最初的正常、主流的分析挖掘支援,到以微網誌應用為代表的新的分析需求,再到目前風頭正健的移動網際網路的資料分析和應用,網際網路行業的資料分析大顯身手的天地在不斷擴大,新的應用源源不斷,新的挑戰讓人們應接不暇,這一切都要求資料分析師自覺、主動去學習、去充實、去提升自己、去跟上網際網路發展的腳步。