
資料挖掘:運用基于計算機的方法(包括新技術)從資料中獲得有用知識的整個過程,這就叫做資料挖掘。
在當今競争的世界中,資料挖掘所扮演的角色越來越重要。
資料挖掘是一個疊代的過程。它從大量資料中搜尋有價值,非同尋常的新資訊。這是人和計算機合作的結果。
資料挖掘的基本目标為:預測 和 描述。
預測性資料挖掘:生成給定資料集所描述的系統模型
描述性資料挖掘: 在可用的資料基礎上生成新的,非同尋常的資訊。
資料挖掘的基本任務:
分類——發現某個預測學習功能,将一個資料項分類到幾個預定義類中的一個
回歸——發現某個預測學習功能,講一個資料項映射到一個真實值預測變量上
聚類——一個常見的描述性任務,用于确定有限的一組類别或聚類,來描述資料
總結概括——一項附加的描述性任務,涉及尋找資料集與子集的簡單描述的方法。
關聯模組化——發現一個本地模型,來描述變量之間或者資料集貨其一部分的特征值之間的重要相關性能
變化和偏差監測——發現資料集中最重要的變化。
要成為資料挖掘過程的分析者和設計者,除了具備全面的專業知識外,還要有創新思維和從不同角度看待問題的主動性。