《R語言資料挖掘》----1.14 資料變換與離散化

2021-11-08 05:59:03

根據前面的内容，我們可以知道總有一些資料格式最适合特定的資料挖掘算法。資料變換是一種将原始資料變換成較好資料格式的方法，以便作為資料處理前特定資料挖掘算法的輸入。

資料變換程式将資料變換成可用于挖掘的恰當形式。它們如下所述：

平滑：使用分箱、回歸和聚類去除資料中的噪聲。

屬性構造：根據給定的屬性集，構造和添加新的屬性。

聚合：在彙總或者聚合中，對資料執行操作。

标準化：這裡，對屬性資料進行縮放以便落入一個較小的範圍。

離散化：數值屬性的原始值被區間标簽或者概念标簽所取代。

對名義資料進行概念分層：這裡，屬性可以被推廣到更高層次的概念中。

為了避免依賴資料屬性的測量機關的選擇，資料需要标準化。這意味着将資料變換或者映射到一個較小的或者共同的範圍内。在這個過程後，所有的屬性獲得相同的權重。有許多标準化的方法，我們看看其中的一些辦法。

最小-最大标準化：該方法保留了原始資料值之間的關系，對原始資料進行線性變換。當一個屬性的實際最大值和最小值可用時，該屬性将被标準化。

z分數标準化：這裡，屬性值的标準化是基于屬性的均值和标準差。當對一個屬性進行标準化時，如果其實際最大值和最小值是未知的，則該方法仍然是有效的。

十進制标準化：該方法通過移動屬性值的小數點将其标準化。

資料離散化通過值映射将數值資料變換成區間标簽或者概念标簽。離散化技術包括：

通過分箱将資料離散化：這是一個根據指定數目的、分段的、自上而下的無監督分割技術。

根據直方圖分析将資料離散化：在該技術中，直方圖将屬性值分割在不相交的範圍内，稱為桶或者箱，同樣為無監督的方法。

通過聚類分析将資料離散化：在該技術中，應用聚類算法離散化數值屬性，它通過将該屬性的值分割到不同的類或者組中。

通過決策樹分析将資料離散化：這裡，決策樹采用自上而下的分割方法，它是一個有監督的方法。為了離散化數值屬性，該方法選擇具有最小熵的屬性值作為分割點，并遞歸地劃分所得的區間以實作分層離散化。

通過相關分析将資料離散化：該技術采用自下而上的方法，通過發現最佳近鄰區間，然後遞歸地将它們合并成更大的區間，這是一個有監督的方法。

繼續閱讀