(一)
1906年,偉大的科學家兼惡心的人種改良倡導者高爾頓francis galton)參加了年度西英格蘭家畜展,即興做了個數學實驗。
在集會上閑逛的他碰到了一個猜重量競賽。人們猜測一隻的公牛的重量,猜的最準的人将獲得大獎。
高爾頓曾公開鄙視過普通大衆的愚笨。他相信隻有專業人士才能做出準确的估測。787位猜測者中根本沒幾個專業人士。為了展現群衆的無知,他算出了所有猜測的平均數(而不是當時統計學家常用的中位數):1197磅。得知實際重量後他吓了一跳:1198磅。
在如今的世界裡,我們隻能見到平均數的身影:紐約4月均溫為52華氏度;庫裡場均拿到30分……隻有在某些統計裡(美國家庭年收入中位數為51939美金中位數才會露下頭角。
那麼,中位數是如何消失的?平均數又是如何成為了當今世界最流行的量數?
(二)
俗稱的平均數(average)在數學上的其實是“算數平均數”,意為所有資料之和除以資料的個數。算數平均數中的“平均數”一詞源自拉丁語的“中間”。mean這一概念最初由希臘數學家畢達哥拉斯提出。
畢達哥拉斯時代的mean并不具有表征作用,它指的隻是三個數字中間的那個數字,那個數字必需與兩頭的數字呈“相等的關系”。這三個數字可以是等距(如2,4,6),也可以是等比(如1,10,100)。
花了十年時間探尋average和mean起源的統計學家churchill eisenhart表示,與現代人依賴于大量資料進行計算不同,早期科學測量非常不準,科學家們需要借助理論來選出多個資料中最好的一個。
正是借助mean這一理論的力量,古希臘天文學家托勒密從極少數的觀測中,選擇出了31’20作為月球的角直徑。如今我們知道根據所在地點的不同,月球的角直徑為29’20到34’6不等。
在英語中,average一詞在1500年左右開始出現,指代船隻或船上貨物受損所帶來的經濟損失。如果因為船隻受損,船員們必需扔掉一些貨物來減輕重量,那投資者就會用arithmetic mean的方式來計算出總體經濟損失。漸漸地,這兩個概念融合在了一起,稱為了我們通常所說的平均數。
多年之後,科學家才會開始使用一種集中量數來表征一組資料。但首先站上曆史舞台的,不是平均數,也不是中位數,而是中列數。
(三)
科學工具往往是為了解決某些學科内特定問題而創造出來的。在集中量數的尋找過程中,人們希望解決的問題是為導航而進行的地理測量。
波斯學者比魯尼(masmoi)
11世紀波斯知識界巨匠比魯尼是集中量數已知最早的使用者之一。他嘗試測量了古城伽茲尼的經度。那個時代的人們在拿到一組測量資料之後,會去掉兩頭之間的資料,取最大值和最小值中間的算術平均數。我們今天把這個數稱為中列數(midrange)。
eisenhart發現,17和18世紀時中列數依然盛行。牛頓和其它航海家為了計算地理位置都使用過中列數。但近幾百年來,在這被平均數占領的世界中,中列數已經下落不明。
(四)
19世紀早期,算術平均數已經成為了一種常用的集中量數。那個時代最傑出(也最暴躁)的數學家高斯在1809年寫道:
如果要在同一情況下用同種方式,從幾次直接觀測中選出一個數,那這些數的算術平均數便是最接近真值的數。習慣上,這假設已經已經被當成一個公理。
這究竟是如何發生的?
史書上并沒有明确的記載。eisenhart發現,算術平均數可能在地理大發現時代被探索磁偏角(磁北方向與正北方向之間的夾角)數學家們首次采用。
直到16世紀後期,大部分科學家都在使用某種特定的算法來取測量中的最佳值。但在1580年,william borough用了一種新算法,把8個資料“結合在了一起”,宣稱磁偏角在11°15’至11°20’之間。雖沒有明确記載,但他可能用了算術平均數。
1635年時,英國天文學家henry gellibrand稱為了已知最早使用平均數作為集中量數的人。一天早上,他測出磁偏角為11°,當天下午則測出11°32’。然後他寫道:
“如果我們取算術平均數,我們或許能确定,正确的測量為11°16’。”
這可能便是人類在使用平均數來估測真值的路上走出的第一步。
(五)
在數學界,中位數幾乎是與平均數在同一時間出現。1599年,數學家edward wrights首次在記錄中推薦了中位數。
“許多支箭射向一個标記,标記被移走,想找出标記原來所在位置的人,或許能想到這樣一種方法。他應該找到箭頭最集中的地方:在那麼多次觀測中,最中央的地方離真值最近。”
19世紀時,中位數仍是資料分析中不可或缺的一部分。在較小的資料集中比較容易計算出中位數。而且那個時代的人認為中位數比平均數更具普遍性。
高爾頓也是中位數的堅定支援者之一。(wikimedia)
(六)
然而由于平均數獨特的統計學性質以及與正态分布的關系,中位數自始至終都被平均數在人氣上所壓制。
在許多情況下,大量測量出的資料會呈現“正态分布”(normal distribution)。人類身高、iq分數、年均氣溫等資料都會以中間高、兩頭低的“鐘形曲線”形式分布。
當資料呈正态分布,平均數往往處在鐘型曲線的最高點,而絕大部分資料都會處在中位數的旁邊。通過标準差,我們還能計算出距離平均數某段距離内資料的個數。
标準差,即資料内數值與平均數之間距離的平方的平均數的平方根,讓平均數在分析實驗資料和統計推斷方面具有突出的價值。沒有此類特性的中位數漸漸在科學和統計用上失去了光芒。
計算機的出現也讓平均數變得更加普及。編寫計算平均數的電腦程式要比編寫中位數的程式容易得多。以至于在excel中,計算某些資料的中位數都要多下一番功夫。漸漸地,平均數成為了最被人熟知,但不一定是最好的代表值。
平均數先生,中位數先生,衆數先生。
因為平均數容易受到極端值的影響,是以很多情況下,中位數才是幫助找到分布中心的最好的數值。許多分析師相信,不分黑白地使用平均數損害了我們對定量資訊的了解。
回想一下最近讀到過的房屋均價、個人所得等資料,你就能發現,中位數才是最能反映普遍性的代表值。最富有的1%能極大地改變平均數所處的位置。正因如此,美國人口普查局決定使用中位數來衡量美國家庭年收入。
中位數同時也很難受到髒資料(dirty data)的影響。随着統計學家需要應對的網際網路資料越來越多,當從業人員遇到不準确的資料,或者是打字時多加了一個零,中位數便顯現出了自己的優越性。
(七)
随着資料收集和分析在我們的日常生活中的作用不斷凸顯,我們必需重新審視用來代表這些數字的集中量數。在一個理想的世界裡,分析師會同時使用平均數、中位數和衆數,配以圖像來展現資料。
但我們生活在精力有限、時間倉促的社會裡。如果隻能選擇一個數字,我們應該選擇中位數。
中位數還是平均數之間的抉擇有着重要的意義。選擇了平均數,心理學家容易做出錯誤的診斷,金融家可能誤估市場的發展。平均數已經統治了人類世界數百個春秋,或許是時候讓我們做出一些改變了。
原文釋出時間為:2016-05-10
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号