天天看點

資料+假設=預測:資料科學中最可悲的方程式

資料+假設=預測:資料科學中最可悲的方程式

圖源:unsplash

準備好面對慘淡的現實了嗎?我即将投放一顆關于統計學和資料科學的真相炸彈。

推斷=資料+假設。換句話說,統計學并不能為你提供真實的資訊。來看看這些常見的誤解:

· “統計學可以将資料變成真理!”

· “如果找到正确的方程式,我就能知道未知數。”

· “如果我對資料進行足夠的數學運算,就可以減少不确定性。”

這些聽起來像童話對嗎?因為它們本來就是童話!

痛苦的真理

從統計學家的角度來看,世界上沒有什麼魔法能讓你無中生有,趁早放棄這個希望吧,這不是統計的意義所在。這篇文章可以讓你避免浪費十年的時間學習統計“黑魔法”來追逐這個難以實作的夢想。

但仍然有很多“騙子”會試圖說服你,典型的欺騙手段是用你不甚了解的東西诓你,借此得到你的驚歎和信任,引你走上錯誤的道路。切記!抵制那些裝腔作勢者。

資料+假設=預測:資料科學中最可悲的方程式

不要像伊卡洛斯一樣跌落!

可以把統計推斷(簡稱“統計”)看作是像伊卡洛斯一樣的飛躍,從我們知道的(樣本資料)到我們不知道的(我們的總體參數)。不過,在統計學中,你所知道的并不是你希望知道的。

你想要明天的事實,但隻有過去可以告訴你;也許你想知道所有潛在使用者對産品的看法,但你隻能詢問其中的一百個人。之後,要面對的就是不确定的事情了。

這不是魔法,而是假設。

怎樣從你所知道的内容跳到不知道的内容呢?你需要一座橋來跨越這個鴻溝,而這座橋就是假設。這就是所有資料科學中最痛苦的方程式:資料+假設=預測。

你可以把“預測”替換成“推斷”或“預測”——它們在這裡都是一樣的,即:關于你不确定的事情的陳述。假設彌合了你所知道的内容與不知道的内容之間的鴻溝。

資料+假設=預測:資料科學中最可悲的方程式

什麼是假設?

如果我們知道所有事實,并且知道的事實實際上是真實的事實,那麼我們就不需要假設或統計學家了。假設是你用來彌合所知道的内容和你希望知道的内容之間的鴻溝的更新檔。當你錯過事實時,必須使用它們來計算出結果。

假設是Ok繃,你将其貼在資訊缺失的地方。更直白些,假設并不是事實,它隻是你編造出來的,因為你的知識有漏洞。如果你習慣于過分自信地欺騙他人,請記得提醒自己,把任何基于假設的事情當作事實都是一種誇大。統計是你試圖在一個不确定的世界中做到最好。

生活處處有假設。

假設是決策的一部分

給我展示一個“無假設”的現實決策,我能快速地說出一大堆你甚至都沒有意識到你正在做的隐含假設。

示例:當你閱讀報紙時,你是不是假設所有事實都經過了核實?當你制定2020年的計劃時,你是不是假設不會發生全球大流行的疾病?你是不是假設你的随機數生成器是随機的?(它們通常不是)當你選擇網上購物時,你是不是假設從你的銀行賬戶中提取的金額是正确的? 你最近吃的零食是什麼,你是不是假設它不會使你中毒?當你吃藥時,你“知道”它的長期安全性和有效性嗎……

不管你喜歡與否,假設是決策的一部分。對現實世界資料的适當嘗試應包含大量書面假設。在這些假設中,資料科學家可以清楚地了解自己必須舍棄的彎路。

即使你選擇避開統計資料,你也可能使用假設來指導你的行動。為了保證安全,跟蹤你的決策所基于的假設是至關重要的。

統計學的“魔法”是如何發生的

資料+假設=預測:資料科學中最可悲的方程式

統計領域為你提供了一整套工具,使你的假設形式化,并将它們與證據結合起來,進而做出合理的決定。期望一個包含不确定性和可能性的分析成為真相來源,這樣的想法是荒謬的。

是的,這就是統計學“魔法”起作用的方式。你選擇你願意接受的假設,然後把它們和資料結合起來,在這個“罪惡結合”的基礎上采取合理的行動,這就是統計學。

資料+假設=預測:資料科學中最可悲的方程式

伊卡洛斯插圖

兩個人可以從相同的資料中得出完全不同的有效結論,這種情況的發生隻需要使用不同的假設。統計學為你提供了一種更加深思熟慮地做出決策的工具,但是它并沒有唯一正确的使用方法,這是一種個人決策工具。

科學是什麼?

當科學家使用統計學方法來得出結論時,這意味着什麼?簡單地說,他們已經形成了一種觀點,并決定與全世界分享。這并不是一件壞事,科學家的工作就是勉強形成觀點,這讓我在假設這些觀點值得聽取時感覺更好。

我非常喜歡聽取那些比我擁有更多專業知識和資訊的人的建議,但從不讓自己把他們的觀點與事實混淆。盡管許多科學家精通機率論,但我也見過一些科學家在統計學上搞得一團糟。觀點無法也不應說服那些不願意基于證據和未經檢驗的假設而得出結論的人。

你可以把統計學看作是在不确定的情況下改變思維的科學。當缺乏資訊的時候,它是一個幫助你做出深思熟慮的決定的架構,沒有唯一正确的方法來使用它。但要記住,它不能為你提供所需的事實,它為你提供了缺乏事實情況下的應對方法。

留言點贊發個朋友圈

我們一起分享AI學習與發展的幹貨

編譯組:雷玥、劉藝
相關連結:
https://towardsdatascience.com/the-saddest-equation-in-data-science-e60e7819b63f

如轉載,請背景留言,遵守轉載規範           

推薦文章閱讀

ACL2018論文集50篇解讀
EMNLP2017論文集28篇論文解讀
2018年AI三大頂會中國學術成果全連結
ACL2017論文集:34篇解讀幹貨全在這裡
10篇AAAI2017經典論文回顧           

長按識别二維碼可添加關注

讀芯君愛你