天天看點

大資料之資料挖掘的玉女心經

  資料挖掘是一種技術,它将傳統的資料分析方法與處理大量資料的複雜算法相結合,在一個大型資料庫中,自動的發現有用資訊的過程,還具有預測未來觀測結果的能力。資料挖掘的對象是資料,是以離開資料,挖掘無從談起。現将我學習《資料挖掘導論》的筆記寫出來,鞏固一下知識。

  一、資料類型。

  資料對象有其它的名字,如記錄,點,向量,模式,事件,案例,樣本,觀測或實體。

  1、屬性與度量

  屬性是對象的性質或特性,因對象而異,或随時間而變化。

  測量标度是将數值或符号與對象的屬性相關聯的規則。

  屬性有四種類型:标稱、序數、區間、比率。其中标稱和序數屬性統稱分類的或定性的。區間和比率是數值的或定量的。

  2、資料集的類型

  資料集有三個重要的特性:次元、稀疏性、分辨率。

  資料集有以下的類型:

  *記錄資料,包括:事務資料或購物籃資料、資料矩陣、稀疏資料矩陣。

  *基于圖形的資料,包括:帶有對象之間聯系的資料、具有圖形對象的資料。

  *有序資料,包括:時序資料、序列資料、時間序列資料、空間資料。

  二、資料品質

  1。測量和資料收集問題

  測量誤差和資料收集錯誤:

  噪聲和僞像:其中僞像是确定性失真,如一組照片同一地方上的條紋。

  精度、偏倚和準确率:精度通常用值集合的标準差度量,而偏倚用值集合的均值與被測量的已知值之間的差度量。

  離群點:是某種意義上具有不同于資料集中其它大部分資料對象的特征的資料對象,或者相對于該屬性的典型值不尋常的屬性值,也稱異常對象。

  遺漏值:是對一個對象中,其中一個或幾個屬性的資訊未收集。有許多處理遺漏值的政策,如删除資料對象或屬性、估計遺漏值、在分析時忽略遺漏值。

  重複資料:資料集中可能包含

二手手遊交易

重複或者幾乎重複的資料對象。

  2。關于應用的問題

  資料在應用時除了考慮品質問題之外,同時也要考慮如下幾個性質:時效性、相關性。

  三、資料預處理

  1、聚集

  聚集是将兩個或多個對象合并成單個對象。

  2、抽樣

  抽樣是一種選擇資料子集進行分析的常用方法,主要基于這樣的思想:如果樣本是有代表性的,則使用樣本與使用整個資料集的效果幾乎一樣。

  抽樣有如下幾個方法:無放回抽樣、有放回抽樣、分層抽樣、漸進抽樣。

  3、維歸約

  維歸約不同于聚集,聚集是合并對象,維歸約是減少屬性的個數,即降低次元。維歸約通過建立新屬性,将一些舊屬性合并在一起來降低資料集的次元。

  維災難:是指這樣一種現象,随着資料次元的增加,許多資料分析變得非常困難。

  用于維歸約的線性代數技術:主成分分析(PCA)、奇異值分解(SVD)。

  4、特征子集選擇

  降低次元的另一種方法是僅使用特征的一個子集,用這個特征子集代替原來的屬性集合,更能有效的捕獲資料集中的重要資訊。有三種标準的特征選擇方法:嵌入、過濾、包裝。

  特征權重:特征越大(屬性),所賦予的權值越大,而不太重要的特征賦予較小的權值。

  5、離散化和二進制化

  在資料挖掘中,經常需要将連續屬性變換成分類屬性(離散化),并且連續和離散屬性可能都需要變換成一個或多個二進制屬性(二進制化)。

  6、變量變換

  變量變換是指用于變量的所有值的變換,也就是屬性變換。有兩種重要的變量變換類型:簡單函數、規範化或标準化。

  四、相似性和相異性度量

  1、相似性和相異性的高層定義是術語鄰近性。而相似度是兩個對像相似程度的數值度量。相異度(經常也稱距離)是兩個對象差異程度的數值度量。

  2、資料對象之間的相異度

  比較經典的是歐幾裡德距離(歐式距離)。

  3、資料對象之間的相似性

  二進制資料的相似性度量也稱相似系數。一般采用如下方法度量:簡單比對系數:SMC=值比對個數/屬性個數。Jaccard系數:J=比對的屬性的個數/不涉及0-0比對的屬性的個數。

  餘弦相似度:比較常見用于比較兩個向量。在Web挖掘中經常用于比較兩個網面的相似性。

  廣義Jaccard系數(Tanimoto系數):是對Jaccard系數的擴充,可以用于文檔資料。

  4、鄰近度計算問題

  組合異種屬性的相似度:可以分别計算出每個屬性之間的相似度,然後使用一種導緻0和1之間相似度的方法組合這些相似度。如果某些屬性是非對稱屬性,則可以這樣處理:如果兩個對象在非對象屬性上的值都是0,則在計算機相似度是可以忽略他們。