天天看點

資料挖掘工具

資料挖掘工具是怎樣準确地告訴你那些隐藏在資料庫深處的重要資訊的呢?它們又是如何作出預測的?答案就是模組化。模組化實際上就是在你知道結果的情況下建立起一種模型,并且把這種模型應用到你所不知道的那種情況中。比如說,如果你

想要在大海上去尋找一艘古老的西班牙沉船,也許你首先想到的就是去找找過去發現這些寶藏的時間和地點有哪些。那麼,經過調查你發現這些沉船大部分都是在百慕大海區被發現,并且那個海區有着某種特征的洋流,以及那個時代的航線

也有一定的特征可尋。在這衆多的類似特征中,你将它們抽象并概括為一個普适的模型。利用這個模型,你就很有希望在具有大量相同特征的另外一個地點發現一件不為人知的寶藏。

     當然,在資料挖掘技術甚至計算機出現以前,這種模組化抽象的方法就已經廣泛地被人們所使用。在計算機中的模組化和以前的模組化方法并無很大不同,主要的差異在于計算機能處理的資訊量比起以前來更加龐大。計算機中能夠存儲已知了結

果的大量不同情況,然後由資料挖掘工具從這些大量的資訊裡面披沙揀金,将能夠産生模型的資訊提取出來。一當模型建立好了之後,就可以應用在那些情形相似但結果尚未知的判斷中了。比如,現在假設你是一個電信公司的營銷主任,公司

想發展一些新的長途電話使用者,那麼你是不是會漫無目的地到街上去散發廣告呢?——就象漫無目的地在海上去尋寶一樣。其實,比起漫無目的地去進行宣傳來,利用你以前的商業經驗來有目的地去拉攏客戶會産生高得多的效率。

     作為一個營銷主任,你對客戶的很多資訊都可以了解得一清二楚:年齡、性别、信用記錄以及長途電話使用狀況。從好的一方面來看,掌握了這些客戶的資訊其實就是掌握了很多潛在的使用者的同樣的資訊。問題在于你還不一定了解他們的

長途電話使用情況(因為他們的長途電話也許是通過的另一個電信公司)。現在你的主要精力就集中在使用者中誰有比較多的長途電話上。通過下面這個表格,我們可以從資料庫裡面抽象某些變量,建立起一個可以對此進行分類營銷的模型。

  客戶 潛力

一般資訊

(e.g. demographic data) 已知 已知

私有資訊

(e.g. customer transactions) 已知 待定

表二、資料挖掘應用于分類營銷

     根據我們建立的從一般資訊到私有資訊的計算模型,我們可以得出表二右下方表格中的資訊。比如,一個電信公司的簡化模型可以是:年薪6萬美圓以上的98%的客戶,每個月長話費80美圓以上。根據這個模型,我們就能應用這些資料來推

斷出公司現在尚不能明确的私有資訊,這樣,新客戶群體就可以大體确定出來了。小型市場的試銷資料對于這樣的模型來說顯得極為有用。因為小範圍内試銷資料的挖掘,能夠為全部市場的分類銷售打下一個良好的基礎。表三則描述了另外一樣資料挖掘的普遍應用:預測。

  過去 現在 将來靜态資訊和目前計劃 已知 已知 已知 動态資訊 已知 已知 待定

表三、資料挖掘應用于預測

資料挖掘的體系結構

     現有很多資料挖掘工具是獨立于資料倉庫以外的,它們需要獨立地輸入輸出資料,以及進行相對獨立的資料分析。為

了最大限度地發揮資料挖掘工具的潛力,它們必須象很多商業分析軟體一樣,緊密地和資料倉庫內建起來。這樣,在人們

對參數和分析深度進行變化的時候,高內建度就能大大地簡化資料挖掘過程。下圖顯示了一個大型資料庫中的進階分析過

程。

內建後的資料挖掘體系

     應用資料挖掘技術,較為理想的起點就是從一個資料倉庫開始,這個資料倉庫裡面應儲存着所有客戶的合同資訊,并

且還應有相應的市場競争對手的相關資料。這樣的資料庫可以是各種市場上的資料庫:Sybase、Oracle、Redbrick、和其

他等等,并且可以針對其中的資料進行速度上和靈活性上的優化。

     聯機分析系統OLAP伺服器可以使一個十分複雜的最終使用者商業模型應用于資料倉庫中。資料庫的多元結構可以讓使用者

從不同角度,——比如産品分類,地域分類,或者其他關鍵角度——來分析和觀察他們的生意營運狀況。資料挖掘伺服器

在這種情況下必須和聯機分析伺服器,以及資料倉庫緊密地內建起來,這樣就可以直接跟蹤資料和并輔助使用者快速作出商

業決策,并且使用者還可以在更新資料的時候不斷發現更好的行為模式,并将其運用于未來的決策當中。

     資料挖掘系統的出現代表着正常決策支援系統的基礎結構的轉變。不象查詢和報表語言僅僅是将資料查詢結果回報給

最終使用者那樣,資料挖掘進階分析伺服器把使用者的商業模型直接應用于其資料倉庫之上,并且回報給使用者一個相關資訊的

分析結果。這個結果是一個經過分析和抽象的動态視圖層,通常會根據使用者的不同需求而變化。基于這個視圖,各種報表

工具和可視化工具就可以将分析結果展現在使用者面前,以幫助使用者計劃将采取怎樣的行動。

産生利潤的工具 有很多公司都成功地安裝了資料挖掘工具。早先采用了這種技術的公司大部分都是資訊密集型公司,比如金融服務和件營銷系統,但是現在這種技術已經準備好應用于各個公司中,隻要公司具有大型資料庫,并且有強烈的通過軟體技術

改善公司管理的願望。但是采用資料挖掘技術,公司必須兩個關鍵的因素,一個就是大型的,內建化的資料庫;另一個就是定義完善的商業處理程式,這樣資料挖掘才好緊密地應用于公司資料之上。

     采用資料挖掘技術的一些成功應用,例如一個藥品公司,通過對它最近的營銷強度和銷售結果的分析,來決定哪一種營銷活動在最近幾個月内對高附加值的醫生群體影響最大,這樣的分析建立在競争對手的銷售活動資訊和當地健康狀況的

資料系統之上。然後這個藥品公司可以通過其辦公網絡,将分析結果傳達到各地的銷售代表處,銷售代表們則可以根據公司傳遞的關鍵資訊來作出相應的銷售抉擇,這樣,在快速變化的、動态的市場上,銷售代表們都可以根據各種特殊情況的

分析作出最優的選擇。

結語

     全面內建了客戶、供應者以及市場資訊的大型資料倉庫導緻公司内的資訊呈爆炸性增長,企業在市場競争中,需要及時而準确地對這些資訊作複雜的分析。為了更加及時地,更加準确地作出利于企業的抉擇,建立在關系資料庫和聯機分析

技術上的資料挖掘工具為我們帶來了一個新的轉機。目前,資料挖掘工具正以前所未有的速度發展,并且擴大着使用者群體,在未來越加激烈的市場競争中,擁有資料挖掘技術必将比别人獲得更快速的反應,赢得更多的商業機會。

seo

繼續閱讀