現在好像人人都愛說“大資料”,就像平時我去開會,不是用大資料分析這個,就是用大資料建構那個。可是我最近看《美國計算機學會通訊》(cacm)上面提到了幾次小資料,我覺得大家也有必要了解一下這個有趣的概念。
什麼是小資料?小資料就是個體化的資料,是我們每個個體的數字化資訊。比如我天天都喝一兩酒,突然有天喝完酒了胃疼,我就想了,這天和之前有何不同?原來,這天喝的酒是個新牌子,可能就是喝了這個新牌子的酒讓我胃疼。這就是我生活中的“小資料”,它不比大資料那樣浩瀚繁雜,卻對我自己至關重要。
第一個意識到“小資料”重要性的是美國康奈爾大學教授德波哈爾·艾斯汀。艾斯汀的父親去年去世了,而早在父親去世之前幾個月,這位計算機科學教授就注意到老人在數字社會脈動中的些許不同—他不再發送電子郵件,不去超級市場買菜,到附近散步的距離也越來越短。
然而,這種逐漸衰弱的狀态,真到醫院去檢查心電圖,卻不一定能看出來。到急診室檢查的時候,不管是測脈搏還是查病曆,這個90歲的老人都沒有表現出特别明顯的異常。可事實上,追蹤他每時每刻的個體化資料,他的生活其實已經明顯與之前不同。這種日常小資料帶來的生命訊息的警示和洞察,啟發了這位計算機科學教授—小資料可以看作是一種新的醫學證據,它是“your row of their data”(他們資料中屬于你的那行資料)。
人們愛說,大資料将改變當代醫學,譬如基因組學、蛋白質組學、代謝組學等等,不過由個人數字跟蹤驅動的小資料,也将有可能會對個人醫療帶來變革,特别是當可穿戴裝置更成熟後,移動技術将可以連續、安全、私人地收集并分析你的資料,這可能包括你的工作、購物、睡覺、吃飯、鍛煉和通訊,這些數字追蹤将得到一幅隻屬于你的健康自畫像。
擁有了這幅專屬于自己的數字自畫像,有什麼好處呢?假設你是一名患者,這樣精确個體化的小資料也許可以幫助你回答:我每次服藥應該用怎樣的劑量?當然了,藥物說明書上會有一個用藥指導,但那個數值是基于大量病人海量資料統計分析得來的,但它适不适合此時此刻的你呢?于是,你就需要了解關于你自己的“小資料”。對于慢性病、抑郁症、記憶力衰退和克羅恩病,很需要日常活動變化的資料。大資料一般是從一個大n的種群裡面取得的,而小資料n=me。我們需要資料解放,把移動和網絡服務的資料解放到你我自己。
這樣一來,小資料也許可以為我們提供更多研究的可能性:能不能通過分析年老父母的內建資料,進而獲得他們的健康資訊?能不能通過這些內建資料,比較不同的醫學治療方案?譬如資料跟蹤能說明你散步可以走多遠,你多早離開家,那就可以表明關節炎藥物治療效果如何。
更令人期待的是,小資料或許還将成為人類攻克癌症的一個好幫手。現在許多人認識到需要用患者的資料進行個性化的癌症治療。我們要特征化所有患者。惡性良性腫瘤細胞的dna引起不同的癌症病人非常不同的變化。譬如,大緻相同的基因變異或删除隻占患者的10%。即使是同一個惡性良性腫瘤,其細胞的變異也不同。基因之間的互相作用可能引起二次變異,對患者的治療影響很大。是以,對許多患者用同一個治療方法是不可能成功的。個性化或者說層次式的藥物治療是要按照特定患者的條件開出藥方—不是“對症下藥”,而是“對人下藥”。這些個性化的治療都需要記錄和分析個人行為随時間變化的規律,這就是小資料。
當然,這并不是說大資料就不重要。在醫學上發現治療的一般規律需要大資料。歐美各國都在計劃編制患者資訊的資料庫,不但為了癌症治療,也為開發新的治療方法。內建大量線上資料庫可以推動個性化用藥,減輕他們的痛苦。從大資料得到規律,用小資料去比對個人。
大資料流行,大家就“言必稱大資料”,可這并不是做學問的态度,不要碰到大量的資料,就給它戴上一頂帽子“大資料”。就像20年前,系統工程也很時髦。哪怕是做報告談到一個比較大的工程,都說那是系統工程。可系統工程又怎麼樣呢?“那是很難的”,就沒有下文了。我們應該敞開思想,研究實際問題,切忌空談。
闵應骅;中國科學院計算技術研究所研究員、美國電子電氣工程師協會會士(ieee life fellow)
<b>原文釋出時間為:2014-04-16</b>
<b></b>
<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>