天天看點

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

資料并不是萬能的。

2010年12月,谷歌與哈佛大學合作推出了科學實驗項目“Google Ngram Viewer”,中文翻譯為“谷歌圖書詞頻統計器”。

簡而言之,這個統計器是針對圖書出版物的一種“谷歌趨勢”。統計器提供關鍵詞搜尋,搜尋的範圍是谷歌的數字圖書館“谷歌圖書”,分析關鍵詞在圖書、報紙、期刊中出現的頻率,并按照年份依次排開,最終基于使用者給定的時間跨度,提供一條顯示關鍵詞流行及發展趨勢的曲線。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

橫軸為年份,縱軸為詞頻

在語言學範疇上,谷歌給定的文本範圍可以被稱作一種“語料庫”,而谷歌語料庫可能是迄今為止最大的人文及社會科學研究語料庫。

剛上線時,谷歌語料庫中擁有超過500萬本圖書,占世界上所有已出版書籍的4%,其中以英語書占多數。2020年7月,谷歌語料庫更新至2019版本,收錄從1500年到2020年2月的書籍文本,涵蓋英文、簡體中文、法文、德文等八種語言,圖書數量已超過千萬本。

谷歌表示,詞頻統計器得出的資料允許免費下載下傳并用于任何用途,是以這項工具受到歐美學術界的熱烈歡迎與頻繁引用。

然而,更多的人把統計器用在了不那麼學術的用途上。在以造梗與玩梗著稱的網際網路民中,流傳着這麼一種玩法:用詞頻統計器搜尋一些21世紀才出現的流行語及特有名詞,等待統計器提供一條令人細思恐極的曲線。

在搜尋框輸入“Grand theft auto”——也就是GTA的全稱,你就會發現GTA在1770年左右擁有比21世紀還要高的詞頻。

也許,曆史老師在講授那段曆史時,有意向你隐瞞了些什麼。

1

詞頻統計器的這種玩法,是由法國人率先發現并大加傳播的。至少在第二次世界大戰之前,法國一直是公認的歐洲乃至世界強權,而詞頻統計器對那段曆史的學術研究貢獻之大,也許喚醒了他們對光榮時刻的追憶。

2020年7月27日,谷歌更新2019語料庫沒多久,法國網友PasEdward使用統計器的法語語料庫,搜尋了一個俚語單詞:“Wesh”。這個詞源自阿爾及利亞語,約在上世紀90年代傳入法國,意思相近于英文中的“What’s up”,中文裡的“嘿”或“發生了什麼”。

結果顯示,趨勢曲線在1800年的位置上出現了一次波折,意味着“Wesh”在1800年的著作中有使用記錄。雖然不明白原委,PasEdward還是把自己的發現放到推特上分享,同時配上一張簡陋的P圖,為法國大革命時期的著名政治家羅伯斯庇爾戴上了一頂現代帽子。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

第二天,另兩位法國網友搜尋了一些歐洲歌手的名字,并在18-19世紀這一區間内找到了對應的索引結果。他們随即把歌手的頭像P到法國國王路易十四與路易十六的畫像上,同樣上傳至推特。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

推特@30SecondsDamso

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

推特@Sitam37

不久,詞頻統計器的新玩法流傳至英語圈及短視訊應用TikTok。結合法國人的創作成果,短視訊作者們确立了一種兩段式的視訊模式,為統計器成為新興網絡梗奠定了基礎:

首先使用統計器搜尋當下的流行人物與事物,得到相關詞彙曾在21世紀以前被使用的記錄;然後動用P圖與剪輯技術,制造出可能用到這一詞彙的曆史場景。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

Aimbot,射擊遊戲的自瞄外挂,最早“出現”于1776年美國獨立戰争

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

“華盛頓将軍,我們要輸了”,“不用擔心兄弟,超級瞄準已部署”,圖源TikTok@phattboyyy

時間來到2021年,統計器的熱度有所消退,可是又在法國人的努力下迎來了一次複興。

2021年10月10日,法國網友qouaa依照上面的格式制作了一部短視訊,他搜尋的詞彙是“Fdp”,意思與英文中的“Son of Bitch”(婊子養的)接近。趨勢曲線在1700年左右有所上漲,接下來的一幕中出現穿着潮牌說着髒話的路易十四,也顯得順理成章。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

這則短視訊僅在一周内獲得了超過300萬次播放,也正式掀起了使用谷歌圖書詞頻統計器“考據”的風潮。從TikTok、Youtube,甚至到國内的B站,相同格式的視訊不斷湧現,視訊作者緻力于将那段“可能被埋沒的曆史”重制于世間,搜尋關鍵詞也五花八門。

詞頻統計器告訴我們,16世紀有PC(個人電腦),17世紀有RGB(最常見的顔色系統),證明近代歐洲人已經在使用電腦,并且對電腦硬體上的彩光特效情有獨鐘。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

TikTok@thadspcs

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

TikTok@cinebench

硬體在發展,程式設計語言肯定也在進步,1817年的程式員用Java寫個程式,好像也沒啥值得大驚小怪的。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

Youtube@1m

詞頻統計器還顯示,17世紀以來的推特使用率居高不下;到了第一次世界大戰時期,才輪到短視訊應用紅極一時。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

莎士比亞推文:“生存還是毀滅”,圖源Youtube@Daaninator

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

一戰導火索:斐迪南大公遇刺的珍貴短視訊影像,圖源Youtube@Techlin

在音樂方面,邁克爾·傑克遜的名号響徹了整整兩個世紀,而瑞克·艾斯利大概從17世紀起就開始唱流行金曲了。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”
18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

Youtube@MyCoolJacksonTV

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

圖源Youtube@Manuel Vsp

二次元文化也盛行了幾百年,據悉在第二次世界大戰爆發時,世界上最受歡迎的日本動漫是《火影忍者》。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

TikTok@dzvjk__senpai

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

[email protected]

把搜尋關鍵詞換成今天的電子遊戲,同樣會得到令人們瞠目結舌的新發現:我們玩到的遊戲其實都是老祖宗們玩剩下的。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

16世紀的《絕地求生》,圖源TikTok@wncem

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

17世紀的《Apex英雄》,圖源TikTok@zrunez_

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

1945年的《我的世界》,圖源Youtube@Daaninator

老祖宗們甚至有着在遊戲結束時打出“GG”(Good Game)的習慣,這大抵展現了他們對禮儀的規範與注重。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

Youtube@Techlin

2

代表權威資料的谷歌圖書詞頻統計器,改出了太多令網友們啼笑皆非的“野史”。不過需要注意,統計器出現這種差之千裡的謬誤,有時也不全是資料的錯。

假如你出于好奇打開統計器複現網友們的搜尋結果,就會發現一些結果與視訊畫面對不上。視訊作者可能通過修改網頁元素或者嫁接P圖、剪輯的方式,制作了假的趨勢曲線。

舉例而言,前文中提到過的Aimbot(自瞄機器人),在1893年以前的著作中毫無記載。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

Case-Insensitive選項能夠得出區分大小寫的結果

在B站有人查到“shabi”一詞最早在美國《獨立宣言》頒布的1776年出現,這也不符合真實索引結果。至少在谷歌英語語料庫,這個詞的純小寫形式直到1824年才首次有人使用。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

就算查到了與視訊中一模一樣的趨勢曲線,也不代表真實索引結果具有足夠的說服力。網友們輸入的單詞或詞組,可能對應多種含義,而谷歌的程式尚且無法做到劃分不同語義的程度。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

《我的世界》遊戲風靡全球前,Minecraft一般指海軍的布雷與掃雷艇

例如,PC、RGB、GG等特定詞組的縮寫形式,結合不同文本語境,可指代無數種具體事物;有時還會用作人名或機構名稱的縮寫。如果不進一步限定搜尋範圍,得到的結果不會有規律可循,自然缺乏應有的參考價值。

直接使用統計器搜尋某個人名,也不是值得過多提倡的行為。曆史記載中同名同姓者多如牛毛,更不用提老外的人名大多出自聖經,擁有遠比中文誇張的重複率。

另外,TikTok與Twitter,本就是英語中的拟聲詞,在百餘年前的英文著作中出現也根本不稀奇。

1880年的一本詩集中用twitter一詞形容鳥叫

當然,玩梗沒必要太過當真,本文也無意否定任何作者為了博觀衆一笑所耗費的大量心血,僅是指出在一部分視訊中,作為工具本身的谷歌詞頻統計器沒什麼需要指摘的地方。

而在另一些關鍵詞較為明晰的案例中,詞頻趨勢曲線在20世紀前的增長态勢有迹可循,使得統計器間接起到了反映曆史與社會變動的職責。

世界意義上的近現代史,正是各大洲各民族建立緊密聯系的關鍵曆史時期,不同文化的交流與沖突,勢必為包括英語在内的各種語言帶來數不勝數的外來詞彙。

前文提到的Java在當下的語境中常指一種程式設計語言,放到殖民時期多半指的是16世紀初由葡萄牙殖民者發現的東南亞爪哇島。今天的Anime是由日語的“動漫”一詞音譯而來,然而百餘年前的英國水手聽到這個詞,頂多聯想到美洲大陸出産的某種樹脂。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

1908年《英華大辭典》中對anime一詞的解釋

Shabi一詞在19世紀出現幾率很高,是因為英國的殖民統治達到鼎盛,進而與東方文明産生了空前的交流。Shabi常出現在與中國、印度、阿拉伯文化相關的英文著作中,指代的意思各不相同,放到中國是“沙弼”,即沙彌、小和尚一詞的音譯;放到阿拉伯語裡就變成了慣用的人名。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”
18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

3

雖然我們使用統計器的方法有時不太科學,但谷歌的工具也絕非完美無瑕。事實上,早在谷歌圖書詞頻統計器誕生伊始的2010年,就已經有學者吐槽過某些21世紀特有名詞在語料庫中的“穿越”現象。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

網友們頗有微詞時會把微詞變成梗,而學者們的微詞會變成學術研究與學術論文。近幾年來的研究調查證明,谷歌的資料也沒那麼權威,其統計器與語料庫存在的問題可不少。

最緻命的問題是文本掃描錯誤。将圖書掃描成電子文本所使用的光學字元識别技術,簡稱OCR,其可靠程度會根據圖書的印刷品質産生浮動,在讀取百餘年前的文本時總是會出錯。

以前的英文著作經常把字母s寫作作形近于字母f的“長s”,直至18-19世紀印刷技術取得長足進步,“長s”才漸漸消亡。谷歌的OCR一度識别不出“長s”,導緻許多帶有s與f字母的單詞之間産生可怕的混淆,直至2019年谷歌語料庫更新,這一錯誤才得以大幅修正。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

詩集《失樂園》(Paradise lost)的标題頁,小寫的字母s基本都印作“長s”

但有些相比之下并不明顯的錯誤至今依然存在。就以網友們玩梗提出的那些關鍵詞為例,把谷歌圖書的搜尋結果搬來和統計器作下對比,便會明白OCR偶爾會錯到十分離譜的地步。

19世紀及以前的英文印刷品經常出現每行或每頁末尾寫不下完整單詞的情況,印刷商會在沒寫完的單詞後接上一根橫杠“-”,讓讀者去下一行或下一頁找到單詞的後半部分。正是這個“-”,會被OCR識别成字母,像是“pub-”,就會出現在《絕地求生》縮寫“pubg”的搜尋結果中。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”
18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

一些形近意思卻完全不同的單詞或詞組,對于OCR而言亦是災難。如“Infernet”,這個法國人的姓氏經常被錯認為“Internet”(網際網路);“fortune”(幸運)或是“for these”(為了這些),更是會被陰差陽錯地識别成《堡壘之夜》的英文名“fortnite”。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

谷歌掃描圖書時,需要填充圖書的标題、出版日期、作者、頁數等中繼資料。這一過程與OCR類似,都由程式自動進行,是以也有漏洞。

文章開頭視訊中的GTA,即“grand theft auto”,在美國對應一種盜竊機動車的罪名。在谷歌圖書搜尋“grand theft auto”,并把搜尋時間限定至18世紀的話,我們會查到一部實際在1981年出版、文中多次提到GTA的美國加利福尼亞州議會法案,它的出版日期被谷歌錯标成了“1771年”。

18世紀就有GTA?詞頻統計器裡的另一部“近現代史”
18世紀就有GTA?詞頻統計器裡的另一部“近現代史”

單是這一本書的标注錯誤,就貢獻了一條篡改曆史的趨勢曲線和一部讓數百萬人忍俊不禁的玩梗視訊。如今各個視訊網站類似的視訊數以千計,而語料庫中OCR與中繼資料出錯的文獻,恐怕還不止這個數量。

當然,任何科學測量工具都不可能做到百分百完美,資料與算法也不例外。能夠在短短數秒之内完成定量分析,得出某種事物在數百年中的大緻發展動向,正是谷歌圖書詞頻統計器的價值所在。

不過,在這個語料庫不知何時才有的下一次更新之前,這些謬誤将一直作為網友們造梗的源泉而存在,這大概是開發者所沒有想到的了。

繼續閱讀