天天看點

跟我一起資料挖掘(18)——什麼是資料挖掘(1)什麼是資料挖掘 資料挖掘簡介 展現形式 資料挖掘涉及的領域 總結

前兩天看到群裡有人問,什麼是資料挖掘,現在就資料挖掘的概念做一下分析,并且盡量用大白話說一下資料挖掘到底是個啥東西,為啥大資料來了資料挖掘也火了(其實原來就挺火)。

先看一上概念:

資料挖掘(英語:data mining),又譯為資料探勘、資料采礦。它是資料庫知識發現(英語:knowledge-discovery in databases,簡稱:kdd)中的一個步驟。資料挖掘一般是指從大量的資料中通過算法搜尋隐藏于其中資訊的過程。資料挖掘通常與計算機科學有關,并通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識别等諸多方法來實作上述目标。

資料挖掘說的直白些就是在海量的資料中找到有價值的資料,為企業經營決策提供依據。

價值包括以下幾類:

1、相關性

相關性分析是指對兩個或多個具備相關性的變量元素進行分析,進而衡量兩個變量因素的相關密切程度。相關性的元素之間需要存在一定的聯系或者機率才可以進行相關性分析。相關性不等于因果性,也不是簡單的個性化,相關性所涵蓋的範圍和領域幾乎覆寫了我們所見到的方方面面,相關性在不同的學科裡面的定義也有很大的差異。用于确定資料之間的變化情況,即其中一個屬性或幾個屬性變化的是否會對其它屬性造成影響,影響有多大。

下圖就是相關性的示例:

跟我一起資料挖掘(18)——什麼是資料挖掘(1)什麼是資料挖掘 資料挖掘簡介 展現形式 資料挖掘涉及的領域 總結

2、趨勢

是指将實際達到的結果,與不同時期财務報表中同類名額的曆史資料進行比較 ,進而确定财務狀況,經營成果和現金流量的變化趨勢和變化規律的一種分析方法。可以通過拆線圖預測資料的走向和趨勢,也可以通過環比、同比的方式對比較的結果進行說明。

如下圖所示:

跟我一起資料挖掘(18)——什麼是資料挖掘(1)什麼是資料挖掘 資料挖掘簡介 展現形式 資料挖掘涉及的領域 總結

3、特征

看具體分析的内容是什麼,比如網際網路類,就是使用者畫像這類的需求,根據不同的使用者給使用者群打相應的标簽。

下圖是一個示意圖:

跟我一起資料挖掘(18)——什麼是資料挖掘(1)什麼是資料挖掘 資料挖掘簡介 展現形式 資料挖掘涉及的領域 總結

資料挖掘的結果一般有幾種展現形式:

1、表格

最早的一種展現方式,交叉表的展示,如下圖:

跟我一起資料挖掘(18)——什麼是資料挖掘(1)什麼是資料挖掘 資料挖掘簡介 展現形式 資料挖掘涉及的領域 總結

2、圖表

相比于圖表更具展現力,讓人很直覺的就能看出資料的整體情況,如下圖:

跟我一起資料挖掘(18)——什麼是資料挖掘(1)什麼是資料挖掘 資料挖掘簡介 展現形式 資料挖掘涉及的領域 總結

3、決策樹

套用俗語,決策樹分類的思想類似于找對象。現想象一個女孩的母親要給這個女孩介紹男朋友,于是有了下面的對話:

女兒:多大年紀了? 

      母親:26。 

      女兒:長的帥不帥? 

      母親:挺帥的。 

      女兒:收入高不? 

      母親:不算很高,中等情況。 

      女兒:是公務員不? 

      母親:是,在稅務局上班呢。 

      女兒:那好,我去見見。

這個女孩的決策過程就是典型的分類樹決策。相當于通過年齡、長相、收入和是否公務員對将男人分為兩個類别:見和不見。假設這個女孩對男人的要求是:30歲以下、長相中等以上并且是高收入者或中等以上收入的公務員,那麼這個可以用下圖表示女孩的決策邏輯:

跟我一起資料挖掘(18)——什麼是資料挖掘(1)什麼是資料挖掘 資料挖掘簡介 展現形式 資料挖掘涉及的領域 總結

資料挖掘是計算機學科中的一個交叉研究領域,其研究方法與多個其他科學緊密相連,如:統計、機2器學習、專家系統、資訊檢索、社會網絡、自然語言處理和模式識别等等。

這裡簡單的介紹了一下資料挖掘的概念以及資料挖掘的展現形式和資料挖掘到底能做一些什麼,在後面會繼續深和的介紹,以期和大家一起提高。

繼續閱讀