資料屬性的分類:
視訊:https://www.bilibili.com/video/av56690626
枚舉或标稱屬性,二值屬性,Ordinal【序數的;】,數值屬性,區間标度屬性,比率标度屬性,離散屬性,連續屬性
p枚舉或标稱屬性:能夠用有限個元素對屬性進行描述的集合。如事物的分類,狀态或名稱。
頭發顔色 = {黑色,棕色,淡黃色,灰色,白色}
婚姻狀态,職業,ID,郵編等
p二值屬性:隻有兩個狀态的枚舉屬性
對稱的二值屬性:兩種狀态具有相同的價值
e.g., 性别
非對稱的二值屬性:兩種狀态的重要性不同.
e.g., 醫學測試(陰性 vs. 陽性)
慣例:将較為重要的取值置為1 (e.g., HIV positive)
pOrdinal【序數的;】
值的順序具有意義的屬性
尺寸= {小,中,大 }, 成績等
p數值屬性:可用整數或實數值度量的屬性。
身高,體重,收入
p區間标度屬性:使用相等的機關尺度度量,可以定量評估屬性值的差。
取值有順序
e.g., 攝氏溫度和華氏溫度
沒有真實的0點
p比率标度屬性:具有固定零點的數值屬性
開始溫度
工作年限、重量、高度和速度等
p離散屬性:具有有限個數的取值或無限可數的取值。
年齡,工号
用整數表示的屬性
注意:二進制屬性為一種特殊的離散屬性
p連續屬性:取值為實數的屬性。
如溫度、重量和高度等
取值通常用浮點數表示
中心趨勢度量:均值,中位數,衆數
均值(mean):
- 算數均值
- 權重平均
- 對極端值敏感:截尾平均
中位數(median):有序數值的中間值;
- 若N是奇數,則為中間值,若為偶數,這位最中間兩個之間的任意值。
- 當觀測數很大時,将取值劃分為區間,并計算每個區間内數值的個數,然後采用內插補點計算中位數的近似值。
衆數(mode):出現最頻繁的值
一個衆數:單峰
兩個衆數:雙峰
三個衆數:三峰
資料散布的度量:
極差、四分位數,方差,标準差,盒圖
極差:最大值與最小值之差
分位數:取自資料分布的每隔一定間隔上的點,把資料劃分成基本上大小相等的連貫集合。
如四分位數,分别為Q1,中位數,Q3。四分位數極差:Q3-Q1
方差與标準差:https://zhidao.baidu.com/question/489232522.html
平均數:
甲:1/5(1+2+3+4+5)=3
乙:1/5(101+102+103+104+105)=103
丙:1/5(3+6+9+12+15)=9
方差:
甲:1/5[(1-3)²+(2-3)²+(3-3)²+(4-3)²+(5-3)²]=2
乙:1/5[(101-103)²+(102-103)²+(103-103)²+(104-103)²+(105-103)²]=2
丙:1/5[(3-9)²+(6-9)²+(9-9)²+(12-9)²+(15-9)²]=18
标準差:方差的平方根
甲:根号2
乙:根号2
丙:3倍根号2
盒圖:是一種流行的資料分布直覺表示
資料的相似性和相異性是聚類、分類、離群點分析等資料挖掘算法的基礎。
資料相似性的度量:
相似性: 衡量兩個資料對象之間的相似程度。一般而言,值越大代表兩個對象越相似。
枚舉屬性相似性:
二進制屬相鄰性: