相關性和顯著性檢驗學習筆記

2023-07-02 17:22:48

相關性分析是指對兩個或多個具備相關性的變量元素進行分析，進而衡量兩個變量因素的相關密切程度。相關性的元素之間需要存在一定的聯系或者機率才可以進行相關性分析，反應的線性相關程度的量，比如：流量和收入，收入和顧客、訂單等的關系，就具有相關性。

相關性分為：正向相關、負相關、不相關（不存線上性關系、可能存在其他關系）、強相關、弱相關

為什麼要對相關系數進行顯著性檢驗？

因為相關系數通常是根據樣本資料計算出來的。由于樣本是随機性的，相關系數是一個随機變量，其取值具有一定的偶然性。兩個不相關的變量，其相關系數也可能較高，這在統計上稱為虛假相關。要從樣本相關系數判斷總體中是否也有這樣的關系，則需要對相關系數進行統計檢驗後才能得出結論。

相關性高對模型結果影響：多重共線性、無顯著變量，如果是多元線性模型或者邏輯回歸的話，會造成變量系數與實際意義沖突的結果

隻有顯著性水準顯著時，相關系數才是可信的，相關性檢驗correlation test是對變量之間是否相關以及相關的程度如何所進行的統計檢驗。變量之間的相關的程度用相關系數r表征。當r大于給定顯著性水準a和一定自由度f下的相關系數臨界值T"a、時，表示變量之間在統計上存在相關關系。否則，則不存在相關關系。也就說隻看相關系數是說明不了問題的，還得看顯著性，而且還是顯著性水準顯著的時候，就可以說明相關系數論證的點可信的。

顯著性檢驗（significance test）就是事先對總體（随機變量）的參數或總體分布形式做出一個假設，然後利用樣本資訊來判斷這個假設（備擇假設）是否合理，即判斷總體的真實情況與原假設是否有顯著性差異。或者說，顯著性檢驗要判斷樣本與我們對總體所做的假設之間的差異是純屬機會變異，還是由我們所做的假設與總體真實情況之間不一緻所引起的。顯著性檢驗是針對我們對總體所做的假設做檢驗，其原理就是“小機率事件實際不可能性原理”來接受或否定假設。

顯著性檢驗即用于實驗處理組與對照組或兩種不同處理的效應之間是否有差異，以及這種差異是否顯著的方法。

常把一個要檢驗的假設記作H0,稱為原假設（或零假設） (null hypothesis) ，與H0對立的假設記作H1，稱為備擇假設(alternative hypothesis) 。

⑴ 在原假設為真時，決定放棄原假設，稱為第一類錯誤，其出現的機率通常記作α；

⑵ 在原假設不真時，決定不放棄原假設，稱為第二類錯誤，其出現的機率通常記作β

(3)α+β 不一定等于1 [1] 。

通常隻限定犯第一類錯誤的最大機率α，不考慮犯第二類錯誤的機率β。這樣的假設檢驗又稱為顯著性檢驗，機率α稱為顯著性水準。

最常用的α值為0.01、0.05、0.10等。一般情況下，根據研究的問題，如果放棄真假設損失大，為減少這類錯誤，α取值小些，反之，α取值大些。

相關性和顯著性檢驗學習筆記

繼續閱讀

LabelImg的安裝與使用（Anaconda環境）Labellmg的安裝

windows10 64bit + Anaconda + python3.5 安裝xgboost的一種簡單方法

資料挖掘-歸一化

Anaconda：Matpotlib工具安裝

anaconda安裝及使用小技巧anaconda使用小技巧

Anaconda環境配置

一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）

Anaconda3安裝face_recognitionAnaconda3(python3.7.4)安裝face_recognition

資料挖掘中的隐私保護

資料挖掘研究内容和本質（轉）

資料挖掘分類技術

淺談資料挖掘評估技術

資料挖掘001

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

用Matlab搞計算機視覺是怎樣的體驗？

在weka中內建自己的算法