資料挖掘基礎之統計學的區間估計

2023-03-24 13:02:55

本部落格根據非常好的excel資料而編寫，使用python語言操作，預計使用一周的時間更新完成。需要《非常好的excel資料》word文檔，歡迎發郵件給[email protected]，免費發放。這篇部落格對應《非常好的excel資料》裡的第2章節。

1.1 方差已知時u的置信區間

資料挖掘基礎之統計學的區間估計

① 資料如下

資料挖掘基礎之統計學的區間估計

②python代碼

tree2=pd.read_csv('D:\data2.csv',encoding='gbk')
tree2=tree2['high']
mean2 =  tree2.mean()
std2=tree2.std()
svar2=np.sqrt(tree2.var())
def wucha2(a,s,n):
    return np.abs(a*(s/np.sqrt(n)))
def gujiqujian2(a,s,n,mean):
    cha=wucha2(stats.norm.ppf(1-(1-a)/2) ,s,n)
    print('[',mean-cha,mean+cha,']')

③結果圖

資料挖掘基礎之統計學的區間估計

1.2 方差未知時的u置信區間

資料挖掘基礎之統計學的區間估計

① 資料

資料挖掘基礎之統計學的區間估計

②代碼

def wucha3(a,s,n):
    return np.abs(a*s/np.sqrt(n))
def gujiqujian3(a,s,n,mean):
    cha=wucha3(t.ppf(1-(1-a)/2,n-1),s,n)
    print('[',mean-cha,mean+cha,']')

③結果圖

資料挖掘基礎之統計學的區間估計

1.3 u未知時的方差的置信區間

資料挖掘基礎之統計學的區間估計

① 資料

資料挖掘基礎之統計學的區間估計

②代碼

time=pd.read_csv('D:\data3.csv',encoding='gbk')
time=time['time']
mean3=time.mean()
std3 = time.std()
def Han(n,s,a):
    y1=chi2.ppf(1-(1-a)/2,n-1)
    y2=chi2.ppf(1-(1-(1-a)/2),n-1)
    x=(n-1)*s**2
    print('[',x/y1,x/y2,']')

③結果圖

資料挖掘基礎之統計學的區間估計

1.4 兩方差相等但不知其值，求u1-u2的置信區間

資料挖掘基礎之統計學的區間估計

① 資料

資料挖掘基礎之統計學的區間估計

②代碼

data4=pd.read_csv('D:\data4.csv',encoding='gbk')
data41=data4['甲'][:5]
data42=data4['乙'][:7]
mean41=pd.to_numeric(data41).mean()
mean42=pd.to_numeric(data42).mean()
var41=pd.to_numeric(data41).var() #方差
var42=pd.to_numeric(data42).var()
count41 = pd.to_numeric(data41).count()
count42 = pd.to_numeric(data42).count()
count4 = count41+count42-2
mean4 = mean41-mean42
def gujiqujian4(a,count,count11,count12,var11,var12,mean):
    tt=t.ppf(1-a/2/2,10)#t0.05 (10) 臨界值
    s = np.sqrt(((count11-1)*var11+(count12-1)*var12)/count)*np.sqrt(1/count11+1/count12)
    print('[',mean-tt*s,mean+tt*s,']')

③結果圖

資料挖掘基礎之統計學的區間估計

1.5 u1和u2未知時，方差比的置信區間

資料挖掘基礎之統計學的區間估計

① 資料

資料挖掘基礎之統計學的區間估計

②代碼

countA=data4['樣本數'][0]
countB=data4['樣本數'][1]
varA=data4['樣本方差'][0]
varB=data4['樣本方差'][1]
zhixindu=data4['置信度'][0]
def gujiqujianli5(a,count1,count2,var1,var2):
    ff1=f.ppf(a/2,count1-1,count2-1)
    ff2=f.ppf((1-a/2),count1-1,count2-1)
    x=var1
    y1=var2*ff1
    y2=var2*ff2
    print('[',x/y2,x/y1,']')

③結果圖

資料挖掘基礎之統計學的區間估計

下一個部落格：區間估計的練習題

上一個部落格：分布函數

資料挖掘基礎之統計學的區間估計

1.1 方差已知時u的置信區間

1.2 方差未知時的u置信區間

1.3 u未知時的方差的置信區間

1.4 兩方差相等但不知其值，求u1-u2的置信區間

1.5 u1和u2未知時，方差比的置信區間

繼續閱讀

高斯混合模型GMM（Gaussian Mixture Model）

SPSS學習筆記（四）非參數檢驗一、配對：Wilcoxon符号-秩檢驗二、獨立樣本：Mann-Whitney U檢驗三、單因素ANOVA：Kruskal-Wallis檢驗

CRF介紹（轉自知乎）

Restricted cubic splines

資料分析系列：Z 檢驗和 T 檢驗的應用及代碼實作

資料的變量類型及其之間的關系

《商務與經濟統計》學習筆記(五)-點估計和區間估計

二項分布和多項分布

統計學基礎知識點刷題（task2）

統計學基礎知識點刷題（task1）

統計學基礎知識點刷題（task3）

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

Adaboost的原理、推導與執行個體

基于觀測變量的調節效應分析

比特币下跌與加密貨币的關聯效應（附代碼）

模組化筆記——标準化和歸一化标準化和歸一化的差別