天天看點

平均數的稱霸之路◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

平均數的稱霸之路◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

(一)

1906年,偉大的科學家兼惡心的人種改良倡導者高爾頓francis galton)參加了年度西英格蘭家畜展,即興做了個數學實驗。

在集會上閑逛的他碰到了一個猜重量競賽。人們猜測一隻的公牛的重量,猜的最準的人将獲得大獎。

高爾頓曾公開鄙視過普通大衆的愚笨。他相信隻有專業人士才能做出準确的估測。787位猜測者中根本沒幾個專業人士。為了展現群衆的無知,他算出了所有猜測的平均數(而不是當時統計學家常用的中位數):1197磅。得知實際重量後他吓了一跳:1198磅。

在如今的世界裡,我們隻能見到平均數的身影:紐約4月均溫為52華氏度;庫裡場均拿到30分……隻有在某些統計裡(美國家庭年收入中位數為51939美金中位數才會露下頭角。

那麼,中位數是如何消失的?平均數又是如何成為了當今世界最流行的量數?

(二)

俗稱的平均數(average)在數學上的其實是“算數平均數”,意為所有資料之和除以資料的個數。算數平均數中的“平均數”一詞源自拉丁語的“中間”。mean這一概念最初由希臘數學家畢達哥拉斯提出。

畢達哥拉斯時代的mean并不具有表征作用,它指的隻是三個數字中間的那個數字,那個數字必需與兩頭的數字呈“相等的關系”。這三個數字可以是等距(如2,4,6),也可以是等比(如1,10,100)。

花了十年時間探尋average和mean起源的統計學家churchill eisenhart表示,與現代人依賴于大量資料進行計算不同,早期科學測量非常不準,科學家們需要借助理論來選出多個資料中最好的一個。

正是借助mean這一理論的力量,古希臘天文學家托勒密從極少數的觀測中,選擇出了31’20作為月球的角直徑。如今我們知道根據所在地點的不同,月球的角直徑為29’20到34’6不等。

平均數的稱霸之路◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

在英語中,average一詞在1500年左右開始出現,指代船隻或船上貨物受損所帶來的經濟損失。如果因為船隻受損,船員們必需扔掉一些貨物來減輕重量,那投資者就會用arithmetic mean的方式來計算出總體經濟損失。漸漸地,這兩個概念融合在了一起,稱為了我們通常所說的平均數。

多年之後,科學家才會開始使用一種集中量數來表征一組資料。但首先站上曆史舞台的,不是平均數,也不是中位數,而是中列數。

(三)

科學工具往往是為了解決某些學科内特定問題而創造出來的。在集中量數的尋找過程中,人們希望解決的問題是為導航而進行的地理測量。

平均數的稱霸之路◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

波斯學者比魯尼(masmoi)

11世紀波斯知識界巨匠比魯尼是集中量數已知最早的使用者之一。他嘗試測量了古城伽茲尼的經度。那個時代的人們在拿到一組測量資料之後,會去掉兩頭之間的資料,取最大值和最小值中間的算術平均數。我們今天把這個數稱為中列數(midrange)。

eisenhart發現,17和18世紀時中列數依然盛行。牛頓和其它航海家為了計算地理位置都使用過中列數。但近幾百年來,在這被平均數占領的世界中,中列數已經下落不明。

(四)

19世紀早期,算術平均數已經成為了一種常用的集中量數。那個時代最傑出(也最暴躁)的數學家高斯在1809年寫道:

如果要在同一情況下用同種方式,從幾次直接觀測中選出一個數,那這些數的算術平均數便是最接近真值的數。習慣上,這假設已經已經被當成一個公理。

這究竟是如何發生的?

史書上并沒有明确的記載。eisenhart發現,算術平均數可能在地理大發現時代被探索磁偏角(磁北方向與正北方向之間的夾角)數學家們首次采用。

直到16世紀後期,大部分科學家都在使用某種特定的算法來取測量中的最佳值。但在1580年,william borough用了一種新算法,把8個資料“結合在了一起”,宣稱磁偏角在11°15’至11°20’之間。雖沒有明确記載,但他可能用了算術平均數。

1635年時,英國天文學家henry gellibrand稱為了已知最早使用平均數作為集中量數的人。一天早上,他測出磁偏角為11°,當天下午則測出11°32’。然後他寫道:

“如果我們取算術平均數,我們或許能确定,正确的測量為11°16’。”

這可能便是人類在使用平均數來估測真值的路上走出的第一步。

(五)

在數學界,中位數幾乎是與平均數在同一時間出現。1599年,數學家edward wrights首次在記錄中推薦了中位數。

“許多支箭射向一個标記,标記被移走,想找出标記原來所在位置的人,或許能想到這樣一種方法。他應該找到箭頭最集中的地方:在那麼多次觀測中,最中央的地方離真值最近。”

19世紀時,中位數仍是資料分析中不可或缺的一部分。在較小的資料集中比較容易計算出中位數。而且那個時代的人認為中位數比平均數更具普遍性。

平均數的稱霸之路◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

高爾頓也是中位數的堅定支援者之一。(wikimedia)

(六)

然而由于平均數獨特的統計學性質以及與正态分布的關系,中位數自始至終都被平均數在人氣上所壓制。

在許多情況下,大量測量出的資料會呈現“正态分布”(normal distribution)。人類身高、iq分數、年均氣溫等資料都會以中間高、兩頭低的“鐘形曲線”形式分布。

當資料呈正态分布,平均數往往處在鐘型曲線的最高點,而絕大部分資料都會處在中位數的旁邊。通過标準差,我們還能計算出距離平均數某段距離内資料的個數。

标準差,即資料内數值與平均數之間距離的平方的平均數的平方根,讓平均數在分析實驗資料和統計推斷方面具有突出的價值。沒有此類特性的中位數漸漸在科學和統計用上失去了光芒。

計算機的出現也讓平均數變得更加普及。編寫計算平均數的電腦程式要比編寫中位數的程式容易得多。以至于在excel中,計算某些資料的中位數都要多下一番功夫。漸漸地,平均數成為了最被人熟知,但不一定是最好的代表值。

平均數的稱霸之路◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

平均數先生,中位數先生,衆數先生。

因為平均數容易受到極端值的影響,是以很多情況下,中位數才是幫助找到分布中心的最好的數值。許多分析師相信,不分黑白地使用平均數損害了我們對定量資訊的了解。

回想一下最近讀到過的房屋均價、個人所得等資料,你就能發現,中位數才是最能反映普遍性的代表值。最富有的1%能極大地改變平均數所處的位置。正因如此,美國人口普查局決定使用中位數來衡量美國家庭年收入。

中位數同時也很難受到髒資料(dirty data)的影響。随着統計學家需要應對的網際網路資料越來越多,當從業人員遇到不準确的資料,或者是打字時多加了一個零,中位數便顯現出了自己的優越性。

(七)

随着資料收集和分析在我們的日常生活中的作用不斷凸顯,我們必需重新審視用來代表這些數字的集中量數。在一個理想的世界裡,分析師會同時使用平均數、中位數和衆數,配以圖像來展現資料。

但我們生活在精力有限、時間倉促的社會裡。如果隻能選擇一個數字,我們應該選擇中位數。

中位數還是平均數之間的抉擇有着重要的意義。選擇了平均數,心理學家容易做出錯誤的診斷,金融家可能誤估市場的發展。平均數已經統治了人類世界數百個春秋,或許是時候讓我們做出一些改變了。

原文釋出時間為:2016-05-10

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号