天天看點

跟我一起資料挖掘(19)——什麼是資料挖掘(2)什麼是資料倉庫? 資料立方體與OLAP 資料挖掘解決的四大類問題 CRISP-DM 總結

資料倉庫是一個面向主題的( subject oriented) 、內建的( integrate) 、相對穩定的(nonvolatile) 、反映曆史變化( time variant)的資料集合,用于支援管理決策。對于資料倉庫的概念我們可以從兩個層次予以理:

①資料倉庫用于支援決策,面向分析型資料處理,它不同于企業現有的操作型資料庫;

②資料倉庫是對多個異構資料源的有效內建,內建後按照主題進行了重組,并包含曆史資料,而且存放在資料倉庫中的資料一般不再修改。

企業資料倉庫的建設是以現有企業業務系統和大量業務資料的積累為基礎。資料倉庫不是靜态的概念,隻有把資訊及時交給需要這些資訊的使用者,供他們作出改善其業務經營的決策,資訊才能發揮作用,資訊才有意義。而把資訊加以整理、歸納和重組,并及時提供給相應的管理決策人員是資料倉庫的根本任務。

資料立斱體以多元對資料迚行模組化和觀察。

下圖就是客戶、産品和銷售的資料立方體:

跟我一起資料挖掘(19)——什麼是資料挖掘(2)什麼是資料倉庫? 資料立方體與OLAP 資料挖掘解決的四大類問題 CRISP-DM 總結

olap的多元分析操作包括:鑽取(drill-down)、上卷(roll-up)、切片(slice)、切塊(dice)以及旋轉(pivot)等。

鑽取(drill-down):在維的不同層次間的變化,從上層降到下一層,或者說是将彙總資料拆分到更細節的資料,比如通過對2010年第二季度的總銷售資料進行鑽取來檢視2010年第二季度4、5、6每個月的消費資料。

上卷(roll-up):鑽取的逆操作,即從細粒度資料向高層的聚合,如将江蘇省、上海市和浙江省的銷售資料進行彙總來檢視江浙滬地區的銷售資料。

切片(slice):選擇維中特定的值進行分析,比如隻選擇電子産品的銷售資料,或者2010年第二季度的資料。

切塊(dice):選擇維中特定區間的資料或者某批特定值進行分析,比如選擇2010年第一季度到2010年第二季度的銷售資料,或者是電子産品和日用品的銷售資料。

旋轉(pivot):即維的位置的互換,就像是二維表的行列轉換,如圖中通過旋轉實作産品維和地域維的互換。

1、分類

分類技術在很多領域都有應用,例如可以通過客戶分類構造一個分類模型來對銀行貸款進行風險評估;目前的市場營銷中很重要的一個特點是強調客戶細分。客戶類别分析的功能也在于此,采用資料挖掘中的分類技術,可以将客戶分成不同的類别,比如呼叫中心設計時可以分為:呼叫頻繁的客戶、偶然大量呼叫的客戶、穩定呼叫的客戶、其他,幫助呼叫中心尋找出這些不同種類客戶之間的特征,這樣的分類模型可以讓使用者了解不同行為類别客戶的分布特征;其他分類應用如文獻檢索和搜尋引擎中的自動文本分類技術;安全領域有基于分類技術的入侵檢測等等。機器學習、專家系統、統計學和神經網絡等領域的研究人員已經提出了許多具體的分類預測方法。下面對分類流程作個簡要描述:

訓練:訓練集——>特征選取——>訓練——>分類器

分類:新樣本——>特征選取——>分類——>判決

下面看一個基于決策樹的分類器的示例:

跟我一起資料挖掘(19)——什麼是資料挖掘(2)什麼是資料倉庫? 資料立方體與OLAP 資料挖掘解決的四大類問題 CRISP-DM 總結

2、聚類

聚類:将資料對象劃分為若幹類,同一類的對象具有較高的相似度,不同類的對象相似度較低。從這個簡單的描述中,可以看出聚類的關鍵是如何度量對象間的相似性。較為常見的用于度量對象的相似度的方法有距離、密度等。

聚類分析的原理可以根據下圖來看:

對牌進行分組:

跟我一起資料挖掘(19)——什麼是資料挖掘(2)什麼是資料倉庫? 資料立方體與OLAP 資料挖掘解決的四大類問題 CRISP-DM 總結

按花色分:

跟我一起資料挖掘(19)——什麼是資料挖掘(2)什麼是資料倉庫? 資料立方體與OLAP 資料挖掘解決的四大類問題 CRISP-DM 總結

按符号分:

跟我一起資料挖掘(19)——什麼是資料挖掘(2)什麼是資料倉庫? 資料立方體與OLAP 資料挖掘解決的四大類問題 CRISP-DM 總結

按顔色分:

跟我一起資料挖掘(19)——什麼是資料挖掘(2)什麼是資料倉庫? 資料立方體與OLAP 資料挖掘解決的四大類問題 CRISP-DM 總結

按大小程度相近分:

跟我一起資料挖掘(19)——什麼是資料挖掘(2)什麼是資料倉庫? 資料立方體與OLAP 資料挖掘解決的四大類問題 CRISP-DM 總結

下面就是一個聚類的示例:

跟我一起資料挖掘(19)——什麼是資料挖掘(2)什麼是資料倉庫? 資料立方體與OLAP 資料挖掘解決的四大類問題 CRISP-DM 總結

3、預測

資料挖掘預測與周易預測有相似之處。周易建立在陰陽二進制論基礎上,對天地萬物進行性狀歸類(天幹地支五行論),精确到可以對事物的未來發展做出較為準确的預測。許多學者認為周易理論依據是萬事萬物的相似性、關聯性和全息性原理。這三個原理已被現代科學所證明。全息性是指事物的某一局部包含了整體的資訊。例如,法醫工作者對一根毛發進行化驗,得出受害者或嫌疑人的許多身體特征。

周易預測通過對曆史事件的學習來積累經驗,得出事物間的相似性和關聯性,進而對事物的未來狀況做出預測。資料挖掘預測則是通過對樣本資料(曆史資料)的輸入值和輸出值關聯性的學習,得到預測模型,再利用該模型對未來的輸入值進行輸出值預測。一般地,可以通過機器學習方法建立預測模型。dm(data mining)的技術基礎是人工智能(機器學習),但是dm僅僅利用了人工智能(ai)中一些已經成熟的算法和技術,因而複雜度和難度都比ai小很多。

機器學習:假定事物的輸入、輸出之間存在一種函數關系y=f(x, β),其中β是待定參數,x是輸入變量,則y=f(x, β)稱為學習機器。通過資料模組化,由樣本資料(一般是曆史資料,包含輸入值和輸出值)學習得到參數β的取值,就确定了具體表達式y=f(x, β),這樣就可以對新的x預測y了。這個過程稱作機器學習。

資料模組化不同于數學模組化,它是基于資料建立數學模型,它是相對于基于實體、化學和其他專業基本原理建立數學模型(即機理模組化)而言的。對于預測來說,如果所研究的對象有明晰的機理,可以依其進行數學模組化,這當然是最好的選擇。但是實際問題中,一般無法進行機理模組化。但是曆史資料往往是容易獲得的,這時就可使用資料模組化。

典型的機器學習方法包括:決策樹方法、人工神經網絡、支援向量機、正則化方法。其他常見的預測方法還有近鄰法、樸素貝葉斯(屬于統計學習方法)等。

預測的模型可以參考下圖:

跟我一起資料挖掘(19)——什麼是資料挖掘(2)什麼是資料倉庫? 資料立方體與OLAP 資料挖掘解決的四大類問題 CRISP-DM 總結

4、關聯

分析各個物品或者商品之間同時出現的機率。

在各種資料挖掘算法中,關聯規則挖掘算是比較重要的一種,尤其是受購物籃分析的影響,關聯規則被應用到很多實際業務中。

首先,和聚類算法一樣,關聯規則挖掘屬于無監督學習方法,它描述的是在一個事物中物品間同時出現的規律的知識模式,現實生活中,比如超市購物時,顧客購買記錄常常隐含着很多關聯規則,比如購買原子筆的顧客中有65%也購買了筆記本,利用這些規則,商場人員可以很好的規劃商品擺放問題。在電商網站中,利用關聯規則可以發現哪些使用者更喜歡哪類的商品,當發現有類似的客戶的時候,可以将其它客戶購買的商品推薦給相類似的客戶,以提高網站的收入。

下圖就是一個關聯的示例:

跟我一起資料挖掘(19)——什麼是資料挖掘(2)什麼是資料倉庫? 資料立方體與OLAP 資料挖掘解決的四大類問題 CRISP-DM 總結

crisp-dm 模型為一個kdd工程提供了一個完整的過程描述.該模型将一個kdd工程分為6個不同的,但順序并非完全不變的階段。

1: business understanding: 即商業了解. 在第一個階段我們必須從商業的角度上面了解項目的要求和最終目的是什麼. 并将這些目的與資料挖掘的定義以及結果結合起來。

2: data understanding: 資料的了解以及收集,對可用的資料進行評估。

3: data preperation: 資料的準備,對可用的原始資料進行一系列的組織以及清洗,使之達到模組化需求。

4: modeling: 即應用資料挖掘工具建立模型。

5: evaluation: 對建立的模型進行評估,重點具體考慮得出的結果是否符合第一步的商業目的。

6: deployment: 部署(方案實施),即将其發現的結果以及過程組織成為可讀文本形式.(資料挖掘報告)。

跟我一起資料挖掘(19)——什麼是資料挖掘(2)什麼是資料倉庫? 資料立方體與OLAP 資料挖掘解決的四大類問題 CRISP-DM 總結

商業了解(business understanding):商業了解階段應算是資料挖掘中最重要的一個部分,在這個階段裡我們需要明确商業目标、評估商業環境、确定挖掘目标以及産生一個項目計劃。 

     資料了解(data understanding):資料是我們挖掘過程的“原材料”,在資料了解過程中我們要知道都有些什麼資料,這些資料的特征是什麼,可以通過對資料的描述性分析得到資料的特點。 

     資料準備(date preparation):在資料準備階段我們需要對資料作出選擇、清洗、重建、合并等工作。選出要進行分析的資料,并對不符合模型輸入要求的資料進行規範化操作。 

     模組化(modeling):模組化過程也是資料挖掘中一個比較重要的過程。我們需要根據分析目的選出适合的模型工具,通過樣本建立模型并對模型進行評估。 

     模型評估(evaluation):并不是每一次模組化都能與我們的目的吻合,評價階段旨在對模組化結果進行評估,對效果較差的結果我們需要分析原因,有時還需要傳回前面的步驟對挖掘過程重新定義。 

     結果部署(deployment):這個階段是用建立的模型去解決實際中遇到的問題,它還包括了監督、維持、産生最終報表、重新評估模型等過程。

以上分别介紹了資料倉庫和資料立方體,并且介紹了資料挖掘要解決的四大類問題,任何跟資料挖掘相關的問題都可以先歸類到這四大類問題中,然後再根據相應的算法進行解決。

最後介紹了crisp-dm 模型,是ibm提出的标準模型,可以對資料挖掘的過程進行理論的指導。在接下來會針對使用者産生的資料來探讨如何進行使用者畫像。

繼續閱讀