統計思維有朝一日将成為像閱讀和寫作一樣成為高效公民的必要能力
——H.G.威爾斯
以前,當我在P.G.做研究員的時候,我每天都會遇到很多統計計算問題,但是像P.G.這樣有着深厚曆史的公司,有一系列系統化、标準化的方法和流程,拿簡單的AB測試,每次都會把實驗結果放進預定的模闆工具中, 該工具會自動計算出相應的結果和顯著性的差異,而在這個過程中我遇到的最多的統計都是LSD和HSD值,這使得整個統計計算過程清晰,而我與統計學的關系也是基于對這兩個統計的研究,讓我對統計魅力有了更多的了解, 為此,我系統地學習了統計學。

讓我在下面的假設檢驗中較長的描述這兩個統計資料的具體含義和場景。
LSD被稱為最小顯着差異,英語是統計學家Fisher提出的List顯着差異。很多人推測HSD是最高顯著性差異,否則,它的真實英文名稱是Homestly Significant,翻譯過來稱之為真顯著性差異,最初是土耳其提出的,後來由克萊默改進的,條件更廣,但也被更多的人所接受。
在我們開始之前,讓我們回顧一下下面的差分分析,這兩個值實際上是針對方差分析服務的。通俗地說,方差分析,可以稱為歸因分析,是從方差的角度分析事件的原因。比如,我拿A、B、C、D四個産品做消費者測試,得到一個消費者評價結果,那麼為什麼結果會這樣,需要分析哪些因素會影響最終結果。"首先,不同的産品可能産生不同的測試結果(加工效果),其次,即使使用相同的産品,消費者的評估結果也可能有所不同,這是一個随機誤差(随機效應)。在統計學中,這種效應或誤差通常以平方和表示:
整個資料的誤差平方和稱為平方和 SST(總平方和),
不同乘積之間誤差大小的平方和稱為誤差平方和SSA之和(處理平方和,反應因子A對觀測資料的影響),
反應随機誤差大小的平方和變為誤差平方和(誤差的平方和)。
三者之間的關系是:
是以方差分析的基本原理是找到原因,即看總誤差中是否存在任何處理誤差。如果加工錯誤對整體誤差沒有顯著影響(不同産品的消費者評分相同),則表示不存在加工錯誤,即表示消費者對每種産品的評價沒有顯著差異。相反,如果存在一個産品,則産品之間至少存在一個顯著差異,并且可以執行以下假設檢驗:
最初的假設是H0:uA-uB-uC-uD;
替代假設H1:uA,uB,uC,uD并不都是相等的。
按照我們在假設檢驗中讨論的步驟,下一步是确定檢驗統計量,這些統計量在單因子方差分析中構造為(F 值):
對于具體的計算,這裡不做擴充,隻是從原則的角度讓大家了解。最後,可以根據 F 的 P 值做出決定。
此時我們已經完成了效果測試,我們可以判斷不同的産品是否對消費者評價有顯著影響。但其實這個結論離我們的目标還很遠,它隻能告訴我們産品之間是否存在差異,而不能告訴我們哪些産品存在或者沒有差別,也就是說,我們經常想看看不同産品之間是否存在差異,上面的測試無法給出答案, 是以我們還需要比較不同的産品,這是多重比較,就是通過均值的比對測試來發現哪些産品有顯著的差異。
有兩種常見的多重比較方法,這是我們文章的主要特征:LSD和HSD
研究人員提前計劃比較一對或多對手段。例如,我希望看到消費者對A和B産品的偏好,可以選擇LSD進行假設檢驗。LSD 基于 t 分布,假設檢驗的基本步驟是:
做出假設
H0:uA-uB(乘積 A 的均值等于乘積 B 的均值)
H1:uA-/uB(乘積 A 的均值不等于乘積 B 的均值)
2. 計算測試統計量:Xi平均值-Xj平均值
3. 計算LSD:
4. 做出決定。将差異與LSD的大小進行比較,以确定是否否定原始假設。
多重比較不是預先計劃的,但在方差分析否定原始假設後,将比較任意兩個過程的均值。也就是說,識别産品的差異會導緻不同的消費者評價,然後分析哪兩種産品不同。該方法最初由Jones W. Tukey提出,土耳其的HSD方法要求每個過程具有相同的樣本量,當樣本量不同時不再适用。C.K. Kramer後來對其進行了修改,以适用于具有不同樣本量的情況。
HSD方法不是基于t分布,而是基于學生化極化分布,它由兩個參數I和(N-I)組成,它們被标記為qa(I,N-I),其學生化極性分布的I和(N-I)自由度為1-a。這裡沒有給出具體的計算公式,可以通過軟體計算,測試原理與LSD相同,隻要計算HSD,就可以将HSD與兩種加工手段之間內插補點的絕對值進行比較,做出決策。以上是方差分析中多重比較的全部内容。關鍵是我們應該清楚地分析原則和思想。随後将對多種因素進行方法分析,并分析互動的必要性。事實上,這個想法是一樣的。了解以上,後者會比較容易了解。
以上是對LSD和HSD的完整說明,在方差分析中占據重要地位,在實際業務場景中得到了廣泛的應用。喜歡統計或資料分析方向的學生歡迎留言關注,共同學習和進步。