一個新的資料劃分方法
随着大資料的興起,“言必稱資料”逐漸成了我們這個時代一個顯著的特征,但問題是,此資料非彼資料。
今天,所有“記錄”的結果,甚至包括文字,都被統稱為資料。這其中暗含的邏輯是,資料作為一個概念,它的内涵擴大了。傳統意義上的資料是人類對事物進行測量的結果,是作為“量”而存在的資料,可以稱為“量數”;今天的照片、視訊、音頻不是源于測量而是源于對周圍環境的記錄,是作為一種證據、根據而存在的,可以稱為“據數”。
量數雖然比據數更接近“數”,但從曆史上看,據數的出現要早于量數。人類早期對自身活動的記錄,即“史”,就是早期的據數,也可以說,據數是曆史的影子。量數則是在記錄的實踐中慢慢産生的,特别是針對天空、星體、山川等外物的記錄,它們追求精确,于是我們逐漸延伸出測量的工具和行為。
一切科學都源于測量,量數是否充沛,決定了科學的種子何時萌芽,決定了科學是否發達,也可以說,量數是科學的母親,其核心要義是精确。
進入 20 世紀後,由于計算機、網際網路和智能手機的普及,據數開始爆炸,相較于 16 世紀的量數爆炸,據數爆炸的規模更大。今天大資料的主體,從體量上來看,毫無疑問是據數,即對人類活動及周邊環境越來越多的記錄,或稱“普适記錄”。網際網路平台記錄的,大部分是據數。
和今天的普适記錄相比,過去5 000年的文明看似浩如煙海,但其實相當有限,史書雖然一本比一本厚,但大部分都聚焦在為數不多的帝王将相身上,關于普通百姓的個體性記錄,在全世界各個國家都少之又少。随着普适記錄的興起,這種情況正在迅速改變,未來不僅有國家史、社會史、行業史,還會有數量驚人的“個人史”。可供曆史學家研究的資料,将會像雪球一樣越滾越大,其規模将前所未有。
量數對于中國的巨大意義,自不待言,黃仁宇的“數目字管理”在 20 世紀曾經開啟過一場讨論,我的前兩本書《大資料》《資料之巅》重點關注的是量數,尤其是《資料之巅》,它延續了黃先生的讨論,而本書更側重據數。

一場還沒有完成的革命
今天的“大資料之熱”,熱的其實是據數,和精确的量數幾乎沒有任何關系。
“據數之熱”并不奇怪,它源于網際網路帶來的變革和它已經展現出來的巨大的财富效應,形形色色的手機應用給了每一個人更加直覺的感受,不管是電商、社交還是自媒體,哪一個不是跟記錄之據數有關呢?
幾乎人類的一切行為,今天都可能、可以被記錄,并被轉化為據數。如果說量數的核心要義是“精确”,那據數的關鍵就在于“清晰”地留據。
因為智能手機的普及,據數已經無處不在,但我們大部分人對據數的了解是膚淺的,迄今為止,以據數為中心的大資料讨論主要停留在以下三個層面。
一是精準營銷,即網際網路廣告業。和傳統的廣告業相比,今天的網際網路和智能手機通過記錄消費者不斷産生的資料,可以向終端使用者推送個性化的廣告,這大大提高了行業效率。這是大資料革命在商業領域的起源。這也是目前網際網路企業,無論是中國的 BAT(百度、阿裡巴巴、騰訊),還是美國的谷歌、Facebook(臉譜網)、亞馬遜最主要的赢利途徑。
二是商業和社會信用,其主體是金融機構。除了精準營銷,這是利用大資料賺錢的第二個法門,也是我們看到諸多網際網路企業陸續進入金融領域的原因。其商業模式是,通過消費者的消費記錄評估消費者的信用,從後續的金融服務中赢利。例如阿裡巴巴旗下的“芝麻信用”和騰訊旗下的“微粒貸”,它們在給消費者打“信用分”的基礎上,向單個消費者提供貸款等金融服務。
這兩種商業模式,都需要通過資料監控消費者在網際網路上的一舉一動,消費者個體是以成為被觀察、被分析、被監測的對象,這就帶出了第三個層面的問題—隐私。這兩種商業模式的副作用是,我們幾乎每天都能聽到資料洩露的新聞,時不時還會看到因為它而導緻的悲劇。
這就是大衆眼中的大資料,前兩者為商業利潤而生,而隐私問題屢屢成為社會公共話題。
可是,這三個層面僅僅揭開了冰山的一角,難道大資料就是養了幾家大公司,友善了公衆生活,改善了信用評級體系,讓生活更美好或者多了點麻煩這麼簡單?我認為遠不止于此。
在商業層面,大資料還在進一步深化變革,它所催生的網際網路應用仍在不斷更新疊代。當大資料完全發揮出它的潛力時,其最終形态将是全自動商業,或稱智能商業,商業文明将會被重塑和再造。
據數的商業化應用帶動了大資料的興起,但商業隻是故事的一個邊角,革命是社會化的,未來我們還會看到智能制造業,它所依靠的還是資料,資料引發的變化還在向社會治理和個人生活領域全面拓進,它涉及社會生活的方方面面,将會推動整個社會進入文明新狀态,改變社會的全貌。
一個新的故事正在世界範圍内浮現。我們必須抛開細枝末節,看到那些更深刻的、方向性的東西。資料的力量正在重塑整個社會甚至人類的天性。
我稱之為“數文明”。
一種新文明的興起
何謂文明?文明是曆史沉澱下來的,被絕大多數人認可和接受的發明創造、人文精神以及公序良俗的總和。這些集合至少包括了以下要素:語言、文字、工具、道德、信仰、宗教、法律、家族、城邦和國家。
今天的資料,包括了文字,還超越了文字,文字隻是資料的一個子集,如果說文字是金子,那資料就是金屬。
在光明和文明之外,資料帶來了一種新的“明”。因為資料,人類曆史上一些精細的、微妙的、隐性的,甚至曾經難以捕捉表述的關系和知識,在今天都可以變為顯性的關系和知識,清清楚楚地為人類所用;因為資料,人類從來沒有像今天一樣清晰、明白、客觀、精确地認知和管理自己所生活的社會;因為資料,大量的事實可以被還原再現,人類的僥幸心理得到了抑制,人性的幽暗之處得以變得光明,人類正在邁向一個更加文明、安全的時代。
在國家和社會的層面之上,我們将會看到更大的變化。越來越多的個人行為在被記錄,對國家而言,這意味着每一個國民個體、每一輛車甚至每一個其他物體都可以被追蹤。
如果懂得使用資料,那麼站在官僚層級的金字塔上,我們的社會将呈現出一種現在就非常清晰而且會越來越清晰的狀态,據數就是這個高清社會的紋理。清晰性是有效治理的前提。
《數文明》堅持、發展了黃仁宇的“數目字管理”。我認為,中國近百年來的落後,是源于衆多國民對精确的漠視,在中國的曆史上量數一度匮乏。
和量數相比,據數為國家治理提供了新的工具和手段。就此而言,用好大資料是通向國家治理現代化的最佳路徑。我甚至認為,若論中國,我們的國家治理現代化,舍此途徑,無從抵達。
在中國的曆史上,曾經長期存在德治和法治之争,德治以仁愛為主,法治倡導峻法,争了上千年,今天中國要建設法治社會已經是共識,《數文明》要提出的,是數治。數治就是憑借對資料的有效收集、處理和分析來治理國家以及與之對應的資料治理,資料治理将是國家治理的重要内容。
對國家而言,以大資料為結果的網際網路代表的是新生的力量,它正在重塑傳統社會,比如智能攝像頭被廣泛應用,大量的事實可以被還原再現,人類的僥幸心理得到了抑制,人類的犯罪行為将會大幅減少,數治正在有效地解決人類對安全的根本性需要。
另一方面,大資料、網際網路又帶來挑戰。國家力量已經不可能完全左右網際網路連接配接起來的有機社會了,相反,越來越多的公共功能在向私人公司、社會機構轉移。
如何利用這股力量,又限制住這股力量?
這股力量可能會重塑整個社會的結構,催生新的政治文明,數治是以是一個具有挑戰性的話題。數治做好了,中國在這個新的時代就會具備“資料優勢”,國家是這樣,企業亦然,各級地方政府也一樣。
一條可靠的成功路徑
數文明不僅和國家、社會相關,也直接關系到個人。
對個人來說,掌握未來發展、演進的方向,知道哪些行業将消失,哪些行業又将興起,這當然非常重要。一個在黑夜中行走的人是走不快、走不遠的,他也無法領略到沿途的風景之美。
我認為,在數文明的時代,通過記錄賦能,個人會成為高能個體,一個具備資料意識、資料頭腦和資料技能的資料公民當然更容易獲得成功。新的時代會改變個人的命運,我們也應該調整我們的價值觀。
記錄可以把偉人還原成普通人,抹去英雄與平民的差别。這不是把曆史虛無化,而恰恰是真實的曆史。中國人有崇拜先祖的傳統,對先祖文明的推崇確定了我們文化的綿延不絕,有其積極意義,但是在大資料時代,我們更要看到另一層意義:偉人也是普通人,凡人也能走向成功,不必高山仰止,妄自菲薄。
記錄可以祛魅。祛魅,意味着打破不可知的神秘,凡人也可成功,人人皆有可能成功。
既然人人都可能成功,那在資料時代,一個人究竟如何才能邁向成功?
《數文明》分析了社會和商業的文明史,找出了文明發展的“金線”,而且我認為,這條文明發展的“金線”也同樣适用于個人,可以幫助個人獲得職業上和專業上的成功。
通往個人專業成功的有效路徑就是記錄。就記錄而言,人腦不如電腦,因為人腦是微分機制,而電腦是積分機制。有效的學習,更需要積分機制。善用記錄和資料,我們就能在成功的道路上獲得能量“加持”。
個人的成功和一個民族的文明自有相通之處,這個相通之處就是記錄。因為普适記錄,個人更容易獲得成功,而推動文明發展的最終動力則是無數國民源源不斷的創新。正因如此,數文明的能量和潛力有可能超越曆史上所有的文明。在我看來,資料正在改變所有那些組成文明的要素,就像支付寶改變了傳統的銀行業,微信改變了傳統的通信行業一樣,數文明在更優越的模式的基礎上,将形成新的法則、新的語言、新的公序良俗甚至新的文化和信仰。資料的新力量,就如同農耕之于古代文明,工業革命之于現代文明,資料将催生一種全新的文明形态。
一類新的隐私觀
當然,新文明本身也問題纏身。
當我們撥開大資料表面上的浮雲,立刻就可以看到一個商業逐利和社會控制的世界。網際網路巨頭貪婪地吞噬着大資料的紅利。個人向網際網路企業讓渡的資料反過來為網際網路企業的“殺熟”行為提供了便利,無數人的個人生活被圈在一個固定的小天地裡,看個性化推薦的新聞,閱讀個性化定制的消費指南,他們感覺很舒服,事實上,我們出讓的資料正在成為我們的電子腳鐐和枷鎖。
這是新文明的兩個悖論。一方面,資料越清晰、越全面、越真實,就越有利于個性化生産,避免資源浪費,比如精準營銷、個性化頁面、私人定制服務;另一方面,資料又帶來了資訊繭房、資訊窄化的風險。 一方面,大資料要求更加開放甚至是無限制的聯接,另一方面這又将傷害個人的隐私和權利。
那該如何看待新文明的問題? 文明不是生來就是其最終形态的,它會磨合、變幻,才能最終為大多數人所接受,成為一種認同、一種信仰。今天資訊技術的發展提供了新的可能,但數文明最終的形态是需要大家一起創造的。
事實上,上述悖論也可能很快被破解。比如,通證經濟來臨,區塊鍊技術正日臻完善,未來一個人的資料很可能并不儲存在大型網際網路公司,而是儲存在一個公共的區塊鍊上,這些企業使用我們的資料都必須經過我們的同意,被區塊鍊記錄。隻能說,我們目前所見證的資料革命,還遠遠沒有結束,如果真要說結束,那也隻是一個序曲的結束。
即使是隐私問題,随着人工智能的普及,它也在出現新的态勢,我認為整個人類,無論東方或西方,亟須建立一種新的隐私觀。
例如,被中國大衆頻繁诟病的“大資料殺熟”和“千人千價”,它們是通過算法對資料的自動處理實作的,主觀上它沒有洩露任何人的資料。這就是新的情況:你的資料都是算法和機器在處理,并沒有被洩露給“人”,在一定程度上,你的隐私并沒有受到“人為”的侵犯。人為洩露個人資料的案例和情況當然還會出現,但我相信會越來越少。我們的資料需不需要對算法和機器保密?這才是一個新的問題。
我們不會介意自然環境在注視或監視我們,那我們是否介意算法和機器注視着我們?或者說,我們應該介意嗎?未來,算法和機器就是我們生活環境的一部分,讓機器了解我們,向機器開放我們的資料,這恐怕是通向智能時代、機器人時代、人機協同時代唯一的選擇。
人類新的隐私觀,其核心是要為商業和公共領域的算法劃定一個使用個人資料的邊界。
數文明的發展和延續,我相信是以百年、千年的時間為機關的,探讨數文明,就是思考人類的百年大計、千年大計。不管是國家還是個人,我們需要跟上新文明的演進步伐,否則就可能被新文明所淘汰。
原文釋出時間為:2018-09-19
本文來自雲栖社群合作夥伴“
大資料文摘”,了解相關資訊可以關注“
”。