天天看點

認識資料

資料屬性的分類:

視訊:​​https://www.bilibili.com/video/av56690626​​

枚舉或标稱屬性,二值屬性,Ordinal【序數的;】,數值屬性,區間标度屬性,比率标度屬性,離散屬性,連續屬性

p枚舉或标稱屬性:能夠用有限個元素對屬性進行描述的集合。如事物的分類,狀态或名稱。

頭發顔色 = {黑色,棕色,淡黃色,灰色,白色}

婚姻狀态,職業,ID,郵編等

p二值屬性:隻有兩個狀态的枚舉屬性

對稱的二值屬性:兩種狀态具有相同的價值

e.g., 性别

非對稱的二值屬性:兩種狀态的重要性不同. 

e.g., 醫學測試(陰性 vs. 陽性)

慣例:将較為重要的取值置為1 (e.g., HIV positive)

pOrdinal【序數的;】

值的順序具有意義的屬性

尺寸= {小,中,大 }, 成績等

p數值屬性:可用整數或實數值度量的屬性。

身高,體重,收入

p區間标度屬性:使用相等的機關尺度度量,可以定量評估屬性值的差。

取值有順序

e.g., 攝氏溫度和華氏溫度

沒有真實的0點

p比率标度屬性:具有固定零點的數值屬性

開始溫度

工作年限、重量、高度和速度等

p離散屬性:具有有限個數的取值或無限可數的取值。

年齡,工号

用整數表示的屬性

注意:二進制屬性為一種特殊的離散屬性

p連續屬性:取值為實數的屬性。

如溫度、重量和高度等

取值通常用浮點數表示

中心趨勢度量:均值,中位數,衆數

均值(mean):

  • 算數均值
  • 權重平均
  • 對極端值敏感:截尾平均

中位數(median):有序數值的中間值;

  • 若N是奇數,則為中間值,若為偶數,這位最中間兩個之間的任意值。
  • 當觀測數很大時,将取值劃分為區間,并計算每個區間内數值的個數,然後采用內插補點計算中位數的近似值。

衆數(mode):出現最頻繁的值

一個衆數:單峰

兩個衆數:雙峰

三個衆數:三峰

認識資料

資料散布的度量:

極差、四分位數,方差,标準差,盒圖

極差:最大值與最小值之差

分位數:取自資料分布的每隔一定間隔上的點,把資料劃分成基本上大小相等的連貫集合。

如四分位數,分别為Q1,中位數,Q3。四分位數極差:Q3-Q1

方差與标準差:​​https://zhidao.baidu.com/question/489232522.html​​

平均數:

甲:1/5(1+2+3+4+5)=3

乙:1/5(101+102+103+104+105)=103

丙:1/5(3+6+9+12+15)=9

方差:

甲:1/5[(1-3)²+(2-3)²+(3-3)²+(4-3)²+(5-3)²]=2

乙:1/5[(101-103)²+(102-103)²+(103-103)²+(104-103)²+(105-103)²]=2

丙:1/5[(3-9)²+(6-9)²+(9-9)²+(12-9)²+(15-9)²]=18

标準差:方差的平方根

甲:根号2

乙:根号2

丙:3倍根号2

認識資料

盒圖:是一種流行的資料分布直覺表示

認識資料

資料的相似性和相異性是聚類、分類、離群點分析等資料挖掘算法的基礎。

資料相似性的度量:

相似性:  衡量兩個資料對象之間的相似程度。一般而言,值越大代表兩個對象越相似。

枚舉屬性相似性:

二進制屬相鄰性:

​​點此闵可夫斯基距離​​​​可以不用看下面的啦​​

認識資料