根據前面的内容,我們可以知道總有一些資料格式最适合特定的資料挖掘算法。資料變換是一種将原始資料變換成較好資料格式的方法,以便作為資料處理前特定資料挖掘算法的輸入。
資料變換程式将資料變換成可用于挖掘的恰當形式。它們如下所述:
平滑:使用分箱、回歸和聚類去除資料中的噪聲。
屬性構造:根據給定的屬性集,構造和添加新的屬性。
聚合:在彙總或者聚合中,對資料執行操作。
标準化:這裡,對屬性資料進行縮放以便落入一個較小的範圍。
離散化:數值屬性的原始值被區間标簽或者概念标簽所取代。
對名義資料進行概念分層:這裡,屬性可以被推廣到更高層次的概念中。
為了避免依賴資料屬性的測量機關的選擇,資料需要标準化。這意味着将資料變換或者映射到一個較小的或者共同的範圍内。在這個過程後,所有的屬性獲得相同的權重。有許多标準化的方法,我們看看其中的一些辦法。
最小-最大标準化:該方法保留了原始資料值之間的關系,對原始資料進行線性變換。當一個屬性的實際最大值和最小值可用時,該屬性将被标準化。
z分數标準化:這裡,屬性值的标準化是基于屬性的均值和标準差。當對一個屬性進行标準化時,如果其實際最大值和最小值是未知的,則該方法仍然是有效的。
十進制标準化:該方法通過移動屬性值的小數點将其标準化。
資料離散化通過值映射将數值資料變換成區間标簽或者概念标簽。離散化技術包括:
通過分箱将資料離散化:這是一個根據指定數目的、分段的、自上而下的無監督分割技術。
根據直方圖分析将資料離散化:在該技術中,直方圖将屬性值分割在不相交的範圍内,稱為桶或者箱,同樣為無監督的方法。
通過聚類分析将資料離散化:在該技術中,應用聚類算法離散化數值屬性,它通過将該屬性的值分割到不同的類或者組中。
通過決策樹分析将資料離散化:這裡,決策樹采用自上而下的分割方法,它是一個有監督的方法。為了離散化數值屬性,該方法選擇具有最小熵的屬性值作為分割點,并遞歸地劃分所得的區間以實作分層離散化。
通過相關分析将資料離散化:該技術采用自下而上的方法,通過發現最佳近鄰區間,然後遞歸地将它們合并成更大的區間,這是一個有監督的方法。