天天看點

資料面面觀:關于資料挖掘和資料分析

資料面面觀:關于資料挖掘和資料分析

  1、

很多關于資料挖掘的文章和文章都在強調工具、算法和架構等,但其實這些都不是資料挖掘的核心,資料挖掘的最重要的環節如下:

資料來源:通過無論是公開的資料還是合作方式、第三方的方式獲得資料;

擷取标簽:對标的物無論是使用者、商品、文章分析,以擷取足夠定義這些标的物的标簽,并對标簽進行名額化和定義權重,通過這些标簽對;

定義特征:通過标的物的個體畫像以及标的物間的關系定義個體和整體的特征;

評估模型:通過定義的特征定義并評估一系列資料模型;

應用模型:模型資料可視化、基于有效模型資料價值應用。

2、

為什麼把資料挖掘和資料分析放在一起說,是因為資料挖掘本身是一個資料應用化的過程,而應用化的過程某種意義上就是一個資料分析的過程,而這個資料分析可以是人為定義的、ai人工智能輔助的等等。

是以,我們可以暫且這樣定資料挖掘和資料分析的關系:通過不斷優化的資料分析方法,并利用資料挖掘才能夠得出資料應用價值的最大化的結果。

資料挖掘是資料價值結果導向的過程集合,而資料應用價值到底有多大?者就是通過資料分析來評估的,其來自于資料分析的過程以及得出的結論。

3、

資料挖掘并不局限。就狹義而言,它就是一個在海量資料中挖掘資料價值的過程;而就廣義而言,隻要是有資料來源的,并能夠通過資料分析方法論得到一資料價值結果為導向的過程,都可以稱作資料挖掘。

4、

産品營運經常會涉及到資料分析,從某種意義上而言,也是一個以資料價值為結果導向的過程:

資料來源:産品營運過程中的産生和收集的一系列資料,如圖:

資料面面觀:關于資料挖掘和資料分析

擷取标簽:通過基本資訊和一系列行為資料擷取分析得到關鍵标簽,并定義标簽的權重和名額,以對基本使用者、商品、文章等等标的物進行畫像;

定義特征:通過标的物個體的統計資料和畫像分析個體間關系的特征和整體性特征,比如電商類使用者就可以根據性别和消費能力、消費周期等标簽名額,定義其相應的特征;再比如對uv、pv等一系列資料進行整體性的特征判斷,以判斷産品本身目前的營運特征和情況;等等...

評估模型:通過提取的特征,定義一系列的可用模型,使得從資料來源到标簽再到特征以及畫像的資料通過模型更直覺的展現出來;

應用模型:比如招聘網站按照不同職能區分的使用者對于網站的使用情況,産品對于90後使用者的營運情況等,以在某種程度上幫助改進産品和提升以及驗證營運工作對于目前産品營運的有效性。

5、

舉個商業化應用的例子,比如everstring這個産品,去年年底剛剛融了b輪65m美刀。這是一家通過大資料技術提供b2bmarketing領域企業智能解決方案的公司,通過挖掘企業資料與結合企業crm,并建立模型,再利用這些模型幫助企業來預測誰是他們下一個客戶。以下是對于這家公司業務的分析:

資料來源:通過爬蟲來抓取全網資料并結合企業crm擷取與企業相關的資料,everstring自稱有1100萬家企業的海量資料庫;

擷取标簽:它們擁有豐富的公司标簽,以及合理的名額與權重;

定義特征:與公司業務和規模相關的特征,更加個性化并增加精準性;

評估模型:定義無論是公司層面的營銷營運模型,還是基于公司業務本身的資料模型,以關注資料應用價值和更加符合業務應用價值效果的資料模型;

應用模型:将模型應用在整體的業務流程當中,比如通過對曆史大量積累的資料進行分析和模組化,進而對未來事件的決策的預測。

6、

關于資料分析,并不可以簡單了解為對于對于資料進行定量、定性的分析和得出一個可用的資料結果的過程集合,這也是我為什麼把資料挖掘和資料分析放在一起說的原因。資料分析一定是伴随着資料從采集到定義,再到應用,最後通過分析資料應用的價值,并不斷自我過程優化。

從某種意義上而言,資料分析會用到的很多工具。我們會發現無論是用ga、百度統計、友盟等等,它們同樣在做着:從采集資料、擷取标簽(機型、地理位置、使用者畫像等)、定義特征(轉換率、客單價等)和模型(漏鬥模型等)到應用模型(可視化圖表等)。這個過程同樣可以了解為一個資料分析方法結合資料挖掘的過程,即對可擷取的資料進行價值挖掘和應用的過程。

本文轉自d1net(轉載)