天天看點

線性回歸的來曆

為什麼叫回歸分析(Regression toward mediocrity)-趨中回歸

有人可能會好奇,為什麼叫“回歸”這個名稱,它有什麼具體含義?實際上,回歸這種現象最早由英國生物統計學家高爾頓在研究父母親和子女的遺傳特性時所發現的一種有趣的現象:

身高這種遺傳特性表現出“高個子父母,其子代身高也高于平均身高;但不見得比其父母更高,到一定程度後會往平均身高方向發生‘回歸’”。 這種效應被稱為“趨中回歸”。現在的回歸分析則多半指源于高爾頓工作的那樣一整套建立變量間數量關系模型的方法和程式。

回歸分析最早是19世紀末期高爾頓(Sir Francis Galton)所發展。高爾頓是生物統計學派的創始者,他的表哥達爾文的巨著《物種起源》問世以後,觸動他用統計方法研究智力進化問題,統計學上的“相關”和“回歸”的概念也是高爾頓第一次使用的。

1855年,他發表了一篇“遺傳的身高向平均數方向的回歸”文章,分析兒童身高與父母身高之間的關系,發現父母的身高可以預測子女的身高,當父母越高或越矮時,子女的身高會比一般兒童高或矮,他将兒子與父母身高的這種現象拟合出一種線形關系。但是有趣的是:通過觀察他注意到,盡管這是一種拟合較好的線形關系,但仍然存在例外現象:矮個的人的兒子比其父要高,身材較高的父母所生子女的身高将回降到人的平均身高。換句話說,當父母身高走向極端(或者非常高,或者非常矮)的人的子女,子女的身高不會象父母身高那樣極端化,其身高要比父母們的身高更接近平均身高。高爾頓選用“回歸”一詞,把這一現象叫做“向平均數方向的 回歸”(regression toward mediocrity)。

而關于父輩身高與子代身高的具體關系是如何的,高爾頓和他的學生K·Pearson觀察了1078對夫婦,以每對夫婦的平均身高作為自變量,取他們的一個成年兒子的身高作為因變量,結果發現兩者近乎一條直線,其回歸 直線方程為:y^=33.73+0.516x ,這種趨勢及回歸方程表明父母身高每增加一個機關時,其成年兒子的身高平均增加0.516個機關。這樣當然極端值就會向中心靠攏。

Depending on the context, an independent variable is also known as a “predictor variable,” “regressor,” “controlled variable,” “manipulated variable,” “explanatory variable,” “exposure variable,” and/or “input variable.”[5] A dependent variable is also known as a “response variable,” “regressand,” “measured variable,” “observed variable,” “responding variable,” “explained variable,” “outcome variable,” “experimental variable,” and/or “output variable.

繼續閱讀