
<b>資料樣本</b>是資料挖掘過程的基本組成部分,每個樣本都用幾個特征來描述,每個特征都有不同類型的值。
首先介紹兩種常見的基本類型:<b>數值型 和 分類型</b>
<b>數值型值</b>包括實型變量和整型變量如年齡,速度或長度。
<b></b>
<b>數值型特征有兩個重要的屬性</b>:其值有順序關系和距離關系。
與其形成對照的是,<b>分類型變量</b>沒有上述兩種關系,<b>分類型變量的兩個值</b> 可以相等或者不等。它們隻建立一種<b>等同關系</b>(藍色=藍色 或者 紅色 != 藍色),這種類型變量的例子有眼睛顔色,性别,國籍。若分類型變量有兩個值,則原則上它可以轉換成一個二進制的數值型變量,這種數值型變量有兩個值:0或1.
具有n個值的分類型變量可以轉換成n個二進制數值型變量,即一個二進制數值對應分類型變量的一個值。
另一種基于變量值的變量分類方法是,根據它是<b>連續型變量</b>還是<b>離散型變量</b>來分類。
<b>連續型變量也稱為定量型或度量型變量</b>,可以使用<b>間隔尺度</b>或<b>比例尺度</b>來衡量。這兩種尺度都允許在理論上無限精密地定義或者度量變量。而這兩種尺度的差別在于它們<b>定義零點方式</b>。在間隔尺度中,<b>零點的位置是任意的</b>,是以,零點并不代表被測變量沒有值。間隔尺度最佳的例子是溫度尺度。
相反,<b>比例尺度有絕對的零點</b>。所有用這種尺度測量變量之間存在真實的比例關系。
在大型資料集中,連續型變量用執行個體或者整型值來表示。
<b>離散型變量也叫做定性型變量,</b>這種變量用兩種非度量的尺度——<b>名義尺度或有序尺度</b>——來衡量或定義它的值。
<b>名義尺度</b>是無序的,它使用不同的符号,字元和數字來表示被測量變量的不同狀态。名義尺度的一個例子是通用的顧客類型的辨別符。
<b>有序尺度包括規則的,離散的順序</b>,例如排名。有序變量是定義了順序關系而沒有定義距離關系的分類型變量。有序屬性的例子有學生在班上的排名以及體育競賽中的金牌,銀牌和銅牌。<b>有序尺度未必是線性的</b>。在有序尺度中,有序屬性隻有大于,等于或小于關系。一般情況下順序變量可以把數值型變量編碼成為和有序變量值相對應的小交集。
一種特殊的離散型變量是周期變量,周期變量的特征是存在距離關系,而不存在順序關系,如星期,月或日。
<b>最後另一種資料分類緯度是基于資料與時間有關的行為特性</b>。一些資料不随時間的變化而變化,它們成為靜态資料。另一方面,也有随時間變化而變化的屬性值叫做動态資料或者時間資料。
大多數資料挖掘方法更适合于靜态資料,挖掘動态資料時,常常需要特殊的考慮和預處理。
産生大多數資料挖掘問題的原因是,大量的樣本具有不同類型的特征,此外,這些樣本往往是高緯度的。這就意味者它們有極多的可測量特征。大資料集中這些多餘的緯度産生了資料挖掘術語中所謂的“維數災”。它是由高緯空間幾何學産生的。
高緯度空間特性常常是違反直覺的。因為我們所在的世界是一個低緯度空間如二維空間或者三維空間。
高緯資料的4個重要屬性會影響輸入資料和資料挖掘結果的解釋。
1、若資料集在n緯度空間中生成密度相同密度的資料點,則該資料集的大小随維數呈指數增長。
2、在高維空間中,需要更大的半徑才能放入一小部分資料點。對給定的子樣本,可以用公式e(p) = p的d分之一次幂 測定超立方體邊長e,其中,p是預先指定的字樣本,d是維數。
通過上述公式表明,即使想擷取資料的一小部分,也需要非常大的領域。
3、在高緯度空間中,幾乎每個點都比其他樣本點更接近某一邊界。在d維空間中,對大小維n的樣本來講,資料點之間的期望值距離d為:
d(d,n) = 1/2((1/n)的d分之一次幂)
4、幾乎每個點都是異常點,當輸入空間的緯度增加時,預測點到分類點中心的距離也在增加。每個新樣本的預測點都像是初始分類資料的異常點。
資料集的維數增加時,資料将越來越稀疏,在這些資料所在的空間中,他們大都是異常點。是以必須重新考慮,重新評估統計學中的傳統概念:距離,相似度,資料分布,均值,标準差等