Google掃描1500萬冊書後，分析出...

“計算曆史學”（computational historiography或者幹脆computational history）是一個我杜撰的詞兒，一方面是迎合目前啥事前面都加“計算”的時尚，比如最唯物的有“計算廣告學”（computational advertising），最唯心的有“計算形而上學”（computational metaphysics），中間隔着計算數學、計算實體學、計算化學、計算生物學、計算語言學等等。這年頭，跳大神兒的要是不會個計算，都不好意思上春晚或江蘇衛視。另一方面也是給中國做曆史的提個醒：大部分的中國哲學家翻譯水準已經被谷歌或百度翻譯器趕超了，曆史學家要是再不上進，也快沒飯了。曆史學最近屢被自然科學進犯，這不，前腳遺傳學剛走，大資料和計算又來了。随便一個科學家都能到這兒玩個票。倒不是吓唬誰，這回介紹個神器： google books ngrams。不信不服。

谷歌的兩位創始人在斯坦福讀書時都在數字圖書館項目裡幹過活。早在2002年，谷歌還沒出大名時，就啟動了google print項目，要把全世界的數字圖書館項目統一起來。拉裡·佩奇通路了他的大學母校密歇根大學，那裡的圖書館學院是美國排名最靠前的之一，當時正有數字圖書館項目，就是用數字掃描器把圖書館的所有書掃描然後做字元識别。佩奇參觀了這個項目，結論是密歇根需要一千年才能把本校圖書館的書掃完。佩奇向校長建議：我六年就能掃完全世界的。這還真不算什麼，掃描和字元識别都是成熟的技術，更重要的是谷歌有人，有錢，有效率。佩奇随後又通路了牛津最古老的bodley圖書館，受到震撼，由此也和更多的大學圖書館結成夥伴關系：谷歌和這些圖書館合作數字化他們的所有書，從英文開始。

但三年後，谷歌迎來了兩場官司，一場是作者組織的集體訴訟，另一場則來自出版商。焦點自然是版權。2008年谷歌和出版商達成協定，同意為出版商和作者提供補償。谷歌随後将google print項目改名為google books，在google books中，版權已過期的書全部公開，版權沒過期但得到授權的可通過“預覽”功能（preview）部分地公開。但美國作協（authors guild，不知是不是中國作協的姐妹機關）對谷歌和出版商的協定不滿，認為出版商不能代表作家的利益，于是又對谷歌提起訴訟。2011年，一位聯邦法官拒絕了谷歌和出版商的協定，于是“作協對谷歌”的案子正式進入訴訟程式，直到2013年11月，聯邦法官陳卓光（denny chin）做出對谷歌有利的判決，他的根據是“公平使用”（fair use）原則。哈佛圖書館館長羅伯特·達恩頓（robert darnton）2010年寫了本書講了這個案子的早期發展，書名很有意思，叫the case for books，但中文版譯名為《閱讀的未來》，沒有了原名的多重隐意。達恩頓作為曆史學家，隻看到谷歌掃描書這一回事，卻并沒有意識到google books不止掃描，更多是企圖用機器了解被掃描的書的内容。

到2010年，谷歌已經掃了一千五百萬冊書，這時谷歌決定将已經掃過的書的某些統計結果公開，這就是google books ngrams。ngrams是在文本中統計詞頻的算法。也就是說，書的内容不一定公開，但關于書的詞頻統計結果可以公開，并且google為ngrams做了一個“顯示器”（viewer），它可以畫出輸入的任何詞或詞組的詞頻統計結果。到2013年4月，已經有超過三千萬冊書納入google books。一開始這些結果隻被計算機科學家和計算語言學家所知，但現在越來越多的人文學者也開始玩起ngrams了，估計用不了多久，這東西會成為字典一樣的必備工具。

下面通過幾個例子介紹ngrams的用法。

例一、“黑鬼-黑人-非裔美國人”

上世紀六十年代美國黑人民權運動爆發之前，“黑人”普遍被歧視地稱為“黑鬼”（nigger），随後則被稱為“黑人”。而近年來，“非裔美國人”變成更為政治正确的叫法。在ngrams裡輸入，nigger，black people和african-american，可以清晰地看到這一趨勢。橫坐标是時間，縱坐标是詞頻。（見圖一）

例二、“科學、哲學與宗教”

按照羅素在《西方哲學史》裡的打油說法，科學是确定性的知識，神學是不訴諸理性的教條，而哲學則介于兩者之間。比羅素晚一輩的美國哲學家蒯因可能不同意，他認為哲學壓根就應該是科學化的（scientific philosophy)，但蒯因的學生輩大概是最後一撥科學化的哲學家：新起的一大票邏輯學家都出自數學系和計算機系，哲學系已剩不下什麼“科學”的玩意兒了。如果哲學家們還不争氣，再過個十年，也許ngrams真會驗證這個預測。在ngrams中，分别輸入首字母大寫的“science, philosophy, religion”，和小寫的“science, philosophy, religion”，我們得到如下兩張圖。在大寫的圖中（圖二），可以清楚看到在公元1600到1800年間，宗教是壓倒性強勢，然後是哲學，相比之下，科學還是沒影的事。但1850年是轉折點，科學慢慢占據優勢，比宗教和哲學加起來都大。在小寫的圖中（圖三），科學和宗教的位置互換，晚了一百年。研究文化史和科學史的恐怕各自都有解讀。

科學史家勞拉·施耐德（laura snyder）寫過一本很有意思的微觀科學史著作《哲學早餐俱樂部》（the philosophical breakfast club: four remarkable friends who transformed science and changed the world）。講的是十九世紀初，四位劍橋的學生：查爾斯·巴貝奇（charles babbage，數學家兼工程師，某種意義上，他發明了最早的計算機）, 約翰·赫歇爾（john herschel, 天文學家兼數學家），胡威立（william whewell，科學家、哲學家、神學家）和理查德·瓊斯（richard jones，經濟學家），他們每個周日早上一起聚餐，讨論科學問題。他們後來對科學事業和科研社團（如皇家學會）在英國的發展做出了巨大貢獻。那時，他們不滿意被别人稱為“自然哲學家”，其中胡威立最早提出了“科學家”這個詞。這段有趣的故事提供了科學從哲學中分離的微觀曆史。如果在ngrams裡輸入“natural philosopher，scientist”，可以和勞拉的故事互為佐證。把微觀的課題放在宏觀的曆史語境（context）中，我們會學到更多。

例三、文壇座次

中國文壇講究排座次，魯郭茅巴老曹，等等。前幾年也不知哪個瞎起哄非要把金庸也拉入夥。二話不說，先把老哥幾個的名字一順給ngrams，看看咋說。注意：魯、郭的名字七十年代前的拼法分别為lu hsun和kuo mo-jo。兩秒鐘出結果：瞧人家畫的這圖，跟炒股曲線似的（見圖四）。可以看出魯爺江湖地位不可動搖，八十年代末九十年代初有點技術性下滑，随後又呈上升态勢。但貌似三四十年代，魯略輸郭。不明白為啥曹禺就不帶玩了呢，即使輸入老拼法tsao yu也不濟。金庸按說是這老幾位裡英文最好的吧，但就是不受待見，把他小名路易·查良镛（louis cha leung-yung）算上，也不管用。這張小圖夠北大複旦那啥系的博導們喝一壺吧。順便再給中國作家們支個招：以後要想名垂千古，就給你們家子孫後代都取同一個名，英文名也一樣，無論性别，隻要女眷能厘清自己爺們就行。這招特适合代筆抄襲的。

例四、美國曆史

過去是數學家研究自己的曆史，是以有“數學的曆史”，現在是數學家研究别人的曆史，是以有“曆史的數學”（mathematics of history），這個詞兒還真不是我瞎編的，哈佛的兩位應用數學家艾略茲·利伯曼·埃頓（erez lieberman aiden）和讓-巴蒂斯特·米歇爾（jean-baptiste michel）最近的主營業務就是研究曆史，他們的任職機關是哈佛的iqss（“定量社會科學研究所”），同時也在谷歌兼職，對谷歌的ngrams項目有所貢獻。哥倆最近寫了本書《用大資料透視人類文化》（uncharted: big data as a lens on human culture），用通俗筆法介紹了他們的工作。書中提到了一個更有意思的例子。大家知道美國剛立國那會兒，各州之間是松散耦合，是以國名叫合衆國（united states），烏合之衆的意思。但内戰之後，聯邦的凝聚力增強，中央政府的權力也越來越大。埃頓和米歇爾用ngrams查了兩個詞組：“united states are”和“united states is”。可以清楚看到，美國内戰之前，群眾的心态确實烏合，“合衆國”原本是複數，是以大家自己的認同就是“are”，但現在的認同自然是鐵闆一塊的“is”了。他們半開玩笑地說：美國内戰其實是單數和複數之戰，最後單數赢了。（見圖五）

還是中國老人有智慧，啥事想不明白，就說：這事留給我們子孫後代解決。過去以為這是托辭，現在有了“計算”，覺得還真是那麼回事。過去整不明白的事現在能“算”出來。1996年，ibm“深藍”計算機逼得最牛的人類棋手卡斯帕羅夫認輸，就是靠的計算：“深藍”比卡斯帕羅夫能多看半步棋。現在人所謂“下一盤很大的棋”就是比其他人多看好幾步。過去中國人追求“行萬裡路，讀萬卷書”，其實就是抱着三字經滿腦子範冰冰，坐高鐵去趟鐵嶺。但瞧人家谷歌——論行路：無人駕駛車已經在加州辦好駕照了，而論讀書：google books把全世界的書都讀遍了，而且有問必答。這要是用下圍棋做比喻，人家得讓錢锺書或者艾茲拉-龐德們多少子啊。

以賽亞·伯林當年寫過篇文章“論科學化的曆史學”（the concept of scientific history），主旨是探讨曆史學是否也能像科學那樣有個客觀标準，憑那時的手段和見識，這問題自然無解。也怪伯老師在牛津待的時間忒長，沒和同時代劍橋的圖靈過過招。但是伯林引用了英國前輩曆史學家亨利·托馬斯·巴克爾（henry thomas buckle）的話說：曆史學之是以沒變成科學，主要是因為曆史學家的智力不如自然科學家。他設想如果伽利略、牛頓、拉普拉斯有時間順手玩點曆史的話，曆史學，說不定早就變成科學的一分子了。話雖損了點，但是出自曆史學家自己之口，至少誠懇，而且還不能随便給他扣“智商歧視”的帽子，就像黑人或猶太人開自己同胞的玩笑，外人管不着。依我看，“科學化的曆史學”擱現在就是“計算曆史學”。

司馬遷被腐刑之後，中國就沒人幹實地考據了。即使人家都做好了，也懶得看。現而今，坐綠皮火車去趟莫斯科圖書館回來就算中國史學界大事兒。其實要是真不想去做實際工作，莫斯科都太遠，去東莞整一山寨手機，躺床上就能指導博士生。不信？我先出個題：“女權運動五百年全球發展史”。然後在google ngrams裡偷偷敲“penis-逗号-clitoris”，并把起始時間設在公元1500年。瞧好吧，您呐。所謂“秀才不出門，便知天下事”。對了，這句話百度譯為：without going outdoors, scholar knows all the world's affairs。也可以意味深長地簡化為：lying in the beds, the world can be in your heads。

原文釋出時間為：2014-06-16

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

Google掃描1500萬冊書後，分析出...

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark