天天看點

幹貨解讀 | 資料挖掘與機器學習有什麼差別?

資料挖掘

一、資料挖掘的定義

資料挖掘是指從資料庫的大量資料中揭示出隐含的、先前未知的并有潛在價值的資訊的非平凡過程。資料挖掘是一種決策支援過程,它主要基于人工智能、機器學習、模式識别、統計學、資料庫、可視化技術等,高度自動化地分析企業的資料,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場政策,減少風險,做出正确的決策。

幹貨解讀 | 資料挖掘與機器學習有什麼差別?

1. 技術上的定義

資料挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、随機的實際應用資料中,提取隐含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。這個定義包括好幾層含義:資料源必須是真實的、大量的、含噪聲的;發現的是使用者感興趣的知識;發現的知識要可接受、可了解、可運用;并不要求發現放之四海皆準的知識,僅支援特定的發現問題。

2. 商業角度的定義

資料挖掘是一種新的商業資訊處理技術,其主要特點是對商業資料庫中的大量業務資料進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性資料。是以,資料挖掘可以描述為:按企業既定業務目标,對大量的企業資料進行探索和分析,揭示隐藏的、未知的或驗證已知的規律性,并進一步将其模型化的先進有效的方法。

二、資料挖掘的主要工作流程

1. 了解業務

從商業的角度了解項目目标和需求,将其轉換成一種資料挖掘的問題定義,設計出達到目标的一個初步計劃。

2. 了解資料

收集初步的資料,進行各種熟悉資料的活動。包括資料描述,資料探索和資料品質驗證等。

3. 準備資料

将最初的原始資料構造成最終适合模組化工具處理的資料集。包括表、記錄和屬性的選擇,資料轉換和資料清理等。

4.模組化

選擇和應用各種模組化技術,并對其參數進行優化。

5.模型評估

對模型進行較為徹底的評價,并檢查構模組化型的每個步驟,确認其是否真正實作了預定的商業目的。

6.模型部署

建立完模型并不意味着項目的結束,即使模型的目的是為了增進對資料的了解,所獲得的知識也要用一種使用者可以使用的方式來組織和表示。通常要将活動模型應用到決策制訂的過程中去。該階段可以簡單到隻生成一份報告,也可以複雜到在企業内實施一個可重複的資料挖掘過程。控制得到普遍承認。

機器學習

一、機器學習的定義

機器學習領域知名學者Tom M.Mitchell曾給機器學習做如下定義:

如果計算機程式針對某類任務T的性能(用P來衡量)能通過經驗E來自我改善,則認為關于T和P,程式對E進行了學習。

幹貨解讀 | 資料挖掘與機器學習有什麼差別?

機器學習的核心是“使用算法解析資料,從中學習,然後對新資料做出決定或預測”。

也就是說計算機利用以擷取的資料得出某一模型,然後利用此模型進行預測的一種方法,這個過程跟人的學習過程有些類似,比如人擷取一定的經驗,可以對新問題進行預測。

機器學習的概念就是通過輸入海量訓練資料對模型進行訓練,使模型掌握資料所蘊含的潛在規律,進而對新輸入的資料進行準确的分類或預測。

二、機器學習的分類

根據是否在人類的監督下進行學習這個問題,機器學習任務區分如下:

監督學習:監督學習算法依賴具有标簽的訓練資料來建立數學模型。例如,如果任務是鑒定圖檔是否包含某種實體,那麼訓練集的圖檔中就應該同時存在包含與不包含該實體的圖檔,同時,每張圖檔需标注是否包含該實體的标簽。根據标簽的數值特征(連續、離散),監督學習又可以分為分類問題與回歸問題。

半監督學習:在某些情況下,并不是所有的輸入資料集都被有效标注了,即訓練集中包含已标注的樣本和未标注的樣本。實際上未标注樣本與已标注樣本擁有同樣的分布,在訓練時若能利用這一點,則會很有幫助。

無監督學習:無監督學習算法完全利用不帶标簽的訓練資料去訓練一個模型。無監督學習用于探索資料的分布,例如将點聚類等。無監督學習可用于發現資料的潛在模式,并将資料按組歸類,還可用于特征學習和資料降維等。

強化學習:在動态環境中以正或負強化的形式給出回報,并用于自動駕駛車輛,或者學習與人類對手玩遊戲等。

三、機器學習的主要工作流程

機器學習的流程本質上就是資料準備、資料分析、資料處理、結果回報的過程,按照這個思路,我們可以把機器學習分為如下步驟:業務場景分析、資料處理、特征工程、算法模型訓練、應用服務。下面具體介紹一下這幾個步驟。

1. 業務場景分析

業務場景分析就是将我們的業務需求、使用場景轉換成機器學習的需求語言,然後分析資料,選擇算法的過程。這個是機器學習的準備階段,主要包括:業務抽象、資料準備、選擇算法。

2. 資料處理

資料處理就是資料的選擇和清洗的過程,資料準備好後,确定了算法,确定了需求,就需要對資料進行處理,資料處理的目的就是盡可能降低對算法的幹擾。在資料進行中我們會經常用到“去噪”和“歸一”。

去噪就是去除數中幹擾的資料,也就是說你的資料案例中存在特别情況的,或者是不正常的資料,一方面要求我們産品經理拿到的資料是反映真實世界的資料,一方面我們通過算法可以識别幹擾的資料。

歸一就是将資料進行簡化,一般将資料簡化在【0,1】,資料歸一化主要是幫助算法能夠很好的尋找最優解。

3. 特征工程

在機器學習中有這麼一種說法,資料和特征決定了機器學習的上限,模型和算法隻是逼近這個上限,資料和特征是算法模型的基礎,所謂特征工程就是對處理完成後的資料進行特征提取,轉換成算法模型可以使用的資料。

4.算法模型訓練

特征資料準備完成後,即可根據具體任務選擇合适的模型并進行訓練。根據選擇好的算法,進行訓練與評估,通過算法訓練得到算法模型,通過新資料測試完成模型品質的評估,若模型不滿足要求,則需要對模型進行調整、訓練、再評估,直至模型達到标準。

5. 應用服務

調優之後得到的最優模型一般會以檔案的形式儲存起來,以待應用時可直接加載使用。機器學習應用加載模型檔案,将新樣本的特征資料輸入模型,由模型進行預測,得到最終預測結果。

資料挖掘與機器學習之間的關系

1.資料挖掘試圖從海量資料中找出有用的知識,而機器學習是資料挖掘的重要工具。

2.資料挖掘不僅僅要研究、拓展、應用一些機器學習方法,還要通過許多非機器學習技術解決資料倉儲、大規模資料、資料噪音等等更為實際的問題。

3.機器學習的涉及面更寬,常用在資料挖掘上的方法通常隻是“從資料學習”,然則機器學習不僅僅可以用在資料挖掘上,一些機器學習的子領域甚至與資料挖掘關系不大,例如增強學習與自動控制等等。

4.資料挖掘可以視為機器學習和資料庫的交叉,它主要利用機器學習界提供的技術來分析海量資料,利用資料庫界提供的技術來管理海量資料。

幹貨解讀 | 資料挖掘與機器學習有什麼差別?

5.機器學習可以從資料挖掘的結論中學習以适應未來事件的行為,資料挖掘發現的知識或規律通常用作機器學習的資訊源

總結:機器學習為資料挖掘提供解決實際問題的方法,而資料挖掘是機器學習技術的一個實際應用,機器學習是資料挖掘的一種重要工具。

繼續閱讀