平均數的稱霸之路◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

（一）

1906年，偉大的科學家兼惡心的人種改良倡導者高爾頓francis galton)參加了年度西英格蘭家畜展，即興做了個數學實驗。

在集會上閑逛的他碰到了一個猜重量競賽。人們猜測一隻的公牛的重量，猜的最準的人将獲得大獎。

高爾頓曾公開鄙視過普通大衆的愚笨。他相信隻有專業人士才能做出準确的估測。787位猜測者中根本沒幾個專業人士。為了展現群衆的無知，他算出了所有猜測的平均數(而不是當時統計學家常用的中位數)：1197磅。得知實際重量後他吓了一跳：1198磅。

在如今的世界裡，我們隻能見到平均數的身影：紐約4月均溫為52華氏度；庫裡場均拿到30分……隻有在某些統計裡(美國家庭年收入中位數為51939美金中位數才會露下頭角。

那麼，中位數是如何消失的？平均數又是如何成為了當今世界最流行的量數？

（二）

俗稱的平均數(average)在數學上的其實是“算數平均數”，意為所有資料之和除以資料的個數。算數平均數中的“平均數”一詞源自拉丁語的“中間”。mean這一概念最初由希臘數學家畢達哥拉斯提出。

畢達哥拉斯時代的mean并不具有表征作用，它指的隻是三個數字中間的那個數字，那個數字必需與兩頭的數字呈“相等的關系”。這三個數字可以是等距(如2，4，6)，也可以是等比(如1，10，100)。

花了十年時間探尋average和mean起源的統計學家churchill eisenhart表示，與現代人依賴于大量資料進行計算不同，早期科學測量非常不準，科學家們需要借助理論來選出多個資料中最好的一個。

正是借助mean這一理論的力量，古希臘天文學家托勒密從極少數的觀測中，選擇出了31’20作為月球的角直徑。如今我們知道根據所在地點的不同，月球的角直徑為29’20到34’6不等。

在英語中，average一詞在1500年左右開始出現，指代船隻或船上貨物受損所帶來的經濟損失。如果因為船隻受損，船員們必需扔掉一些貨物來減輕重量，那投資者就會用arithmetic mean的方式來計算出總體經濟損失。漸漸地，這兩個概念融合在了一起，稱為了我們通常所說的平均數。

多年之後，科學家才會開始使用一種集中量數來表征一組資料。但首先站上曆史舞台的，不是平均數，也不是中位數，而是中列數。

（三）

科學工具往往是為了解決某些學科内特定問題而創造出來的。在集中量數的尋找過程中，人們希望解決的問題是為導航而進行的地理測量。

波斯學者比魯尼（masmoi）

11世紀波斯知識界巨匠比魯尼是集中量數已知最早的使用者之一。他嘗試測量了古城伽茲尼的經度。那個時代的人們在拿到一組測量資料之後，會去掉兩頭之間的資料，取最大值和最小值中間的算術平均數。我們今天把這個數稱為中列數(midrange)。

eisenhart發現，17和18世紀時中列數依然盛行。牛頓和其它航海家為了計算地理位置都使用過中列數。但近幾百年來，在這被平均數占領的世界中，中列數已經下落不明。

（四）

19世紀早期，算術平均數已經成為了一種常用的集中量數。那個時代最傑出(也最暴躁)的數學家高斯在1809年寫道：

如果要在同一情況下用同種方式，從幾次直接觀測中選出一個數，那這些數的算術平均數便是最接近真值的數。習慣上，這假設已經已經被當成一個公理。

這究竟是如何發生的？

史書上并沒有明确的記載。eisenhart發現，算術平均數可能在地理大發現時代被探索磁偏角(磁北方向與正北方向之間的夾角)數學家們首次采用。

直到16世紀後期，大部分科學家都在使用某種特定的算法來取測量中的最佳值。但在1580年，william borough用了一種新算法，把8個資料“結合在了一起”，宣稱磁偏角在11°15’至11°20’之間。雖沒有明确記載，但他可能用了算術平均數。

1635年時，英國天文學家henry gellibrand稱為了已知最早使用平均數作為集中量數的人。一天早上，他測出磁偏角為11°，當天下午則測出11°32’。然後他寫道：

“如果我們取算術平均數，我們或許能确定，正确的測量為11°16’。”

這可能便是人類在使用平均數來估測真值的路上走出的第一步。

（五）

在數學界，中位數幾乎是與平均數在同一時間出現。1599年，數學家edward wrights首次在記錄中推薦了中位數。

“許多支箭射向一個标記，标記被移走，想找出标記原來所在位置的人，或許能想到這樣一種方法。他應該找到箭頭最集中的地方：在那麼多次觀測中，最中央的地方離真值最近。”

19世紀時，中位數仍是資料分析中不可或缺的一部分。在較小的資料集中比較容易計算出中位數。而且那個時代的人認為中位數比平均數更具普遍性。

高爾頓也是中位數的堅定支援者之一。(wikimedia)

（六）

然而由于平均數獨特的統計學性質以及與正态分布的關系，中位數自始至終都被平均數在人氣上所壓制。

在許多情況下，大量測量出的資料會呈現“正态分布”(normal distribution)。人類身高、iq分數、年均氣溫等資料都會以中間高、兩頭低的“鐘形曲線”形式分布。

當資料呈正态分布，平均數往往處在鐘型曲線的最高點，而絕大部分資料都會處在中位數的旁邊。通過标準差，我們還能計算出距離平均數某段距離内資料的個數。

标準差，即資料内數值與平均數之間距離的平方的平均數的平方根，讓平均數在分析實驗資料和統計推斷方面具有突出的價值。沒有此類特性的中位數漸漸在科學和統計用上失去了光芒。

計算機的出現也讓平均數變得更加普及。編寫計算平均數的電腦程式要比編寫中位數的程式容易得多。以至于在excel中，計算某些資料的中位數都要多下一番功夫。漸漸地，平均數成為了最被人熟知，但不一定是最好的代表值。

平均數先生，中位數先生，衆數先生。

因為平均數容易受到極端值的影響，是以很多情況下，中位數才是幫助找到分布中心的最好的數值。許多分析師相信，不分黑白地使用平均數損害了我們對定量資訊的了解。

回想一下最近讀到過的房屋均價、個人所得等資料，你就能發現，中位數才是最能反映普遍性的代表值。最富有的1%能極大地改變平均數所處的位置。正因如此，美國人口普查局決定使用中位數來衡量美國家庭年收入。

中位數同時也很難受到髒資料(dirty data)的影響。随着統計學家需要應對的網際網路資料越來越多，當從業人員遇到不準确的資料，或者是打字時多加了一個零，中位數便顯現出了自己的優越性。

（七）

随着資料收集和分析在我們的日常生活中的作用不斷凸顯，我們必需重新審視用來代表這些數字的集中量數。在一個理想的世界裡，分析師會同時使用平均數、中位數和衆數，配以圖像來展現資料。

但我們生活在精力有限、時間倉促的社會裡。如果隻能選擇一個數字，我們應該選擇中位數。

中位數還是平均數之間的抉擇有着重要的意義。選擇了平均數，心理學家容易做出錯誤的診斷，金融家可能誤估市場的發展。平均數已經統治了人類世界數百個春秋，或許是時候讓我們做出一些改變了。

原文釋出時間為：2016-05-10

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号