屬性(attribute)是代表資料對象的某些特征、特性或者次元的字段。
在大多數情況下,資料可以用矩陣模組化或者以矩陣形式表示,其中清單示資料屬性,行表示資料集中的某些資料記錄。對于其他情況,資料不能用矩陣表示,比如文本、時間序列、圖像、音頻以及視訊等。資料可以通過适當的方法,如特征提取,變換成矩陣。
資料屬性的類型來自它的語境、域或者語義,有數值、非數值、分類資料類型以及文本資料。有兩種适用于資料屬性與描述的視角,它們在資料挖掘與r語言中被廣泛使用,如下所述:
基于代數或者幾何視角的資料(data in algebraic or geometric view):整個資料集可以模組化為一個矩陣。線性代數和抽象代數在這裡起着很重要的作用。
基于機率視角的資料(data in probability view):将觀測資料視為多元随機變量。每一個數值屬性就是一個随機變量,次元就是資料的次元。不論數值是離散的還是連續的,這裡都可以運用機率論。
為了幫助讀者更自然地學習r語言,我們将采用幾何、代數以及機率視角的資料。
這裡有一個矩陣的例子。列數由m确定,m就是資料的次元;行數由n确定,n就是資料集的大小。

其中,xi表示第i行,表示一個m元組,如下所示:
xj表示第j列,表示一個n元組,如下所示:
因為數值資料是定量的且允許任意計算,是以它易于處理。數值資料與整數或者浮點數的性質是一樣的。
來自有限集或者可數無限集的數值屬性稱為是離散的(discrete),例如一個人的年齡,它是從1150開始的整數值。來自任何實數值的其他屬性稱為是連續的(continuous)。主要有兩種數值類型:
定距尺度(interval-scaled):這是以相同機關尺度測量的定量值,例如某些特定魚類的重量,以國際度量标準,如克或者千克。
定比尺度(ratio-scaled):除了值之間的內插補點之外,該值可以通過值之間的比率進行計算。這是一個具有固定零點的數值屬性,是以可以說一個值是另一個值的多少倍。
分類屬性的值來自一組符号構成的集域(集合),例如人類服裝的大小被分類為{s, m, l}。分類屬性可以劃分為兩種類型:
名義(nominal):該集合中的值是無序的且不是定量的,這裡隻有相等運算是有意義的。
定序(ordinal):與定類類型相反,這裡的資料是有序的。這裡除了相等運算外,也可以進行不相等運算。
基本描述可以用來識别資料的特征,區分噪聲或者異常值。兩種基本的統計描述如下所示:
集中趨勢的度量(measures of central tendency):它測量資料分布的中間或中心位置:均值、中位數、衆數、值域中點等。
資料的離散程度的度量(measures of dispersion of the data):它包括全距、四分位數、四分位數間距等。
資料測量用于聚類、異常值檢測和分類。它指的是近似性、相似性和差異性的度量。兩個元組或資料記錄之間的相似值的取值範圍是0~1的一個實數值,數值越大,元組之間的相似度就越高。差異性的原理相反,差異性值越大,兩個元組就越不相似。
對于一個資料集,資料矩陣在n×m階矩陣(n個元組和m個屬性)中存儲了n個資料元組:
相異度矩陣存儲了資料集中的所有n個元組的近似度集合,通常為一個n×n階的矩陣。在下面的矩陣中,d(i,?j)是兩個元組之間的差異性。0表示彼此之間高度相似或者高度接近,同樣,1表示完全不相同。數值越大,相異度就越高。
大多數時候,相異度和相似度是相關的概念。相似性度量通常可以使用一個函數來定義,可以用相異性的度量來建構相似性,反之亦然。
這裡有一張表,它列出了不同類型屬性值常用的度量方法。