天天看點

資料思維(六)資料思維(六)

作者:讀裁者黃遠輝

< h1類""pgc-h-arrow-right-"資料跟蹤""2">資料思維(vi)。</h1>

作者:讀者黃元輝,關注人類曆史、品質标準、知識産權

推薦閱讀清單:資料思維:從資料分析到商業價值魔鬼的統計,大資料時代的統計思維,關于我的統計,Lady Tea:統計如何改變科學和生活,算法之美

資料思維(六)資料思維(六)
資料思維(六)資料思維(六)
資料思維(六)資料思維(六)
資料思維(六)資料思維(六)
資料思維(六)資料思維(六)
資料思維(六)資料思維(六)

以上内容請大家注意回頭看...

十三、本·福特定律

20世紀20年代,實體學家弗蘭克·本福德(Frank Benford)在紐約斯克内克塔迪(Sknektadi)的通用電氣公司工作。當時,科學計算的主要工作是查找清單并檢索資料。

本·福特(Ben Ford)指出,由于長時間使用,體重秤的前幾頁會嚴重磨損,但接下來的幾頁幾乎是全新的。這場無聊的事故使本·福特的名字一直活到今天。

Ben Ford 需要查詢的數字往往以較小的數字開頭,而以較小數字開頭的數字位于清單的頂部。例如,本·福特(Ben Ford)發現,在科學研究和工程中遇到的資料中,約有30%是首先出現的。相比之下,隻有5%的資料是第9位。

本·福特(Ben Ford)告訴通用電氣化學家歐文·朗缪爾(Owen Longmuir,1932年諾貝爾化學獎獲得者)他的意外發現。朗缪爾鼓勵他發表一篇相關論文。十年後,本福德發現這種現象并不是科學人物所獨有的。

本·福特測量了第一個棒球得分資料的數量,并發現了相同的分布。後來,他發現網球比分、股票報價、河流長度、原子量、所羅門群島電費以及《紐約時報》頭版提到的資料都遵循相同的分布。

最後,本·福特在1938年出版的《美國哲學學會論文集》(American Philosophical Society's Essays)上發表了他的結論。在本文中,他推斷出一個精确的公式來計算出現在第一個數字中的1-9的比例(見下表)。

資料思維(六)資料思維(六)

1-9 的比例出現在第一個數字中

Ben Ford 檢視了非零數字的數量,是以 7129600 和 0.000072002 的第一個數字都是 7。福特公式還預測了第二和第三位數字中1-9的比例。在第二位和第三位數字中可能存在 0。但是,這些數字上較小的數字比第一個數字具有明顯較小的比例優勢。是以,本·福特的觀察有時被稱為"第一數字現象"。

事實上,半個多世紀前,比本·福特(Ben Ford)更著名的科學家、天文學家西蒙·紐科姆(Simon Newcombe)發現并讨論了同樣的現象。紐科姆的論文于1881年發表在《美國數學雜志》(American Journal of Math)上,首先引用了現在衆所周知的事實:"任何經常使用刻度的人都必須注意到,刻度的正面總是比背面磨損得更快,進而意識到10個數字不會以相同的頻率出現。"

重要的是要注意,本·福特定律不适用于各種常見資料,例如電話号碼,年齡,體重,社會安全号碼,智商,中獎彩票号碼和郵政編碼。本·福特定律主要适用于表達式或度量的數量,例如城市人口或信用卡支付。

這一發現的應用是什麼?然後是馬克·尼吉尼(Mark Nighini),他是一名統計學家,專門研究如何利用本·福特定律來測試金融欺詐。他發現,在本·福特的論文發表後,很少有人讨論這個話題。唯一看到本·福特定律實際價值的人是經濟學家哈爾·範·瑞安(Hal Van Ryan)。

1972年,範·瑞安(Van Ryan)提議使用本·福特定律來測試政治自命不凡。他認為,公共決策是基于對成本和收益的細粒度預測。這些預測中的資料應與本·福特分布相比對。否則,它可能意味着預測者為了達到政治目的而憑空捏造或歪曲資料。

Van Gaal未能進行進一步的研究激發了Nigrini的熱情。根據Nigrini的說法,如果您有很多資料,則可以繪制一個條形圖或柱形圖,顯示每個數字首先出現的機率。你隻需要先數一下1的資料,先數多少資料到2,3等等。實際資料應符合本·福特定律,如下圖所示:

資料思維(六)資料思維(六)

資料符合本·福特定律,圖檔來自剪刀石布:如何成為超級預測者

Van Ryan和Negrini的第一個想法是,僞造資料的人不知道Ben Ford定律。腐敗或稅務騙子沒有理由假設哪個數字會比其他數字更頻繁地出現。是以,一組虛構的資料顯示第一個數字的平均分布,如下圖所示:

資料思維(六)資料思維(六)

非本·福特定律,第一個數字中的數字機率相等,圖檔來自剪刀石布:如何成為超級預測因子

Nigrini最初研究的欺詐案件之一來自亞利桑那州。現年43歲的韋恩·詹姆斯·納爾遜(Wayne James Nelson)利用他作為亞利桑那州财務主管的職位,以州政府的名義向一家虛構的供應商寫了一張1927.48美元的支票,從事非法撥款。在随後的幾天裡,他又僞造了22張假支票,總額接近190萬美元。

被捕後,尼爾森承認,他打開假支票是出于好意,以證明亞利桑那州的應付賬款系統存在缺陷。相反,他隻是"忘記"提醒财政部的其他同僚這些漏洞,并将錢轉入他的賬戶。乍一看,Nelson的支票金額(以美元計)有一個模式:

資料思維(六)資料思維(六)

尼爾森錯誤的支票金額,由剪刀石布繪制:如何成為超級預測者

尼格裡尼說,納爾遜的支票金額數字是"反本·福特"。除兩個檢查外,所有金額的第一位數字都是 7、8、9 等大數字。尼爾森将金額保持在10萬美元以下,大概是因為他擔心六位數的金額會引起不必要的關注。

14. 幸存者偏見

資料思維(六)資料思維(六)

統計經典"幸存者偏見"的主角是亞伯拉罕·沃德,一個出生在克勞森堡的猶太人,當時是奧匈帝國的一部分。

20世紀30年代,沃爾德在紐約哥倫比亞大學獲得了教職。在第二次世界大戰期間,沃爾德與韋納、香農等人一起秘密為美國軍方工作,但表面上隻做一般的學術研究。沃德的團隊是哥倫比亞大學(SRG)的一個統計研究小組。

該小組充滿了人,包括Weiner(應用數學家和控制理論的創始人),Mostler(哈佛大學統計學系的創始主任),Savage(決策理論和貝葉斯方法的先驅),Milton Friedman(着名經濟學家)等。

沃德據說是這群人中最聰明的人。有一天,統計研究小組被問及如何加強轟炸機的裝甲,以提高被擊中後的存活率。

美國軍方認為,如果每場戰鬥,它擊落的飛機比對方少5%,消耗的燃料少5%,彈藥多消耗5%,機動性提高5%,最終将成為勝利者。

于是海軍請專家們設計了一個改進飛機的計劃,他們向統計小組提供了一些資料,主要是飛機上彈孔的分布情況,如上圖所示。從圖中可以看出,這些彈孔分布不均勻,機翼多,發動機少。

當時,軍方普遍認為應該減少裝甲總量,然後添加到最受攻擊的地區。然而,他們不知道這些零件需要多少裝甲,是以他們找到了沃爾德,希望能找到答案。但沃德先生斷然拒絕了他們的想法,并給出了相反的答案。

沃爾德認為,需要添加裝甲的地方不應該是留下彈孔的地方,而是沒有彈孔的地方,即飛機的發動機。Wald解釋說,飛機每個部分被擊中的機率應該相等,但發動機中的彈孔小于其餘部分,這表明被擊中的飛機沒有傳回的機會。我們看到的資料來自成功的傳回飛機,這表明即使機翼嚴重受損,它們仍然可以安全傳回。

沃德也舉了一個更容易了解的例子,如果你看看野戰醫院的病房,你會發現腿部受傷的病人比被擊中胸部的病人多,不是因為胸部中彈的人少,而是因為他們在胸部中彈後很難生存。

軍方采納了沃德的建議,改進了飛機的裝甲,取得了良好的效果。雖然目前尚不清楚有多少轟炸機和飛行員因改進而獲救,但該提案的效果從未受到贊揚。這一事件後來被總結為"幸存者偏見"。

未完成,請注意檢視後續内容...

繼續閱讀