天天看點

玩笑到現實,大資料涉足文學研究--用資料模型分析莎翁著作

幾十年來,文學作品中的統計分析已經從單純的破譯理論發展到更尖端的研究

玩笑到現實,大資料涉足文學研究--用資料模型分析莎翁著作

1993年,tom stoppard的戲劇《世外桃源》(arcadia)正式上演。在這部腦洞大開的戲劇中那些用資料統計進行文學評論的橋段成為圈内人的笑料。劇中一位傻乎乎的詩歌教師,bernard

nightingale,嘲笑他的同僚用計算機程式來斷定一個沒有署名的故事出自于勞倫斯(d.h.

lawrence)之手。并且還得意的指出“在同樣的統計基礎上,竟然有百分之九十的可能性,lawrence還撰寫了《淘氣小威廉》(“just

william”.作者是裡奇馬爾richmal crompton)這本書以及前一天的《百眼巨人報》(英國布萊頓市的一份地方報紙)。雖然這隻是該劇中的幾個笑話,但現在突然變得令人“細思恐極”了。 随着《新牛津莎士比亞》系列的出版,人們開始了一場關于伊麗莎白時期劇作家身份的讨論。

《新牛津莎士比亞》全集的最新版登上了去年10月份的頭條新聞。因為書中指出莎士比亞的44部戲劇作品有17部是和别人共同完成的(相比之下,1986版中僅列出了8部)。 而其中一個新出現的人名,馬洛(christopher marlowe),更讓人們興奮不已。這個名字的出現似乎佐證了之前一些關于作者身份被駁回的陰謀論。 然而,更吸引人眼球的是得出這個論斷背後的技術。人們已不再是根據編輯觀察等傳統的方式,而是通過計算分析來做出這樣的結論。 那麼今天的資料語言學家是如何在不受作者影響力的前提下,弄清楚作者與作品的關系的呢? 同時我們更需要思考為什麼做到這點很重要?

計算機和人類都可以通過一些“附加詞”來識别是不是莎士比亞的作品,比如他會經常在自己的作品中使用 “gentle”, “answer”, “beseech”, “tonight”。 顯然用這種方法來判斷是不是莎翁作品已經變得不那麼準确了,因為那時候的作家常常會模仿其他人的行文風格。 早期的劇作家是非常緊密的一個團體,而與此同時16世紀的觀衆似乎并不是很在意作品的獨創性。《帖木兒》(tamburlaine),馬洛的一部非常受歡迎的戲劇,當時被許多人模仿衍生出各種續作。以至于當時著名的劇作家本·瓊森(ben

jonson)對該劇被無休止的模仿而發出了哀歎。 莎士比亞也和其他人一樣沒能免俗。 《馬耳他島的猶太人》(“the jew of malta” ,1589)中, 馬洛筆下的巴拉巴斯将他的女兒阿比蓋爾隔離在一個陽台上:

“but

stay! what star shines yonder in the east?

the

lodestar of my life, if abigail!”

(“看! 哪顆星星在東方發光?就是我生命中北極星,阿比蓋爾!“)

如果這段台詞聽起來很熟悉,那是因為十年後莎士比亞筆下的羅密歐有着類似的台詞:

soft! what light through yonder window breaks?

it

is the east, and juliet is the sun!” (“輕聲!那邊窗子裡亮起來的是什麼光?這是東方,而朱麗葉就是太陽!“)

在這種互相影響的情況下,電腦如何能夠分辨出馬洛和莎士比亞本人的作品以及他們作品中互相借鑒的差別?根據《新牛津莎士比亞》的編輯,其中的關鍵在于“功能詞”, 就是 “to”或“a”這類能夠為句子提供文法支撐的單詞。 他們的理論認為作家們都會無意識地以自己獨特的方式使用這些詞。 例如,莎士比亞經常把“and”與 “with”連在一起用 - 克勞狄斯與喬特魯德婚禮中的“with

mirth in funeral and with dirge in marriage” (“葬禮中的挽歌和婚禮中有歡歌”),老哈姆雷特的鬼魂說到“緩慢而莊嚴得出現在他們面前”( “appears

before them, and with solemn march。goes slow and stately”)。 是以即使作家們試圖模仿他人的寫作風格,功能詞的使用仍然能夠揭示他們真實的身份。 通過分析作家如何使用那些功能詞,計算機可以初步地識别他們獨特的語言指紋。

在莎士比亞作品的研究中,能夠獲知作品作者,作品内容以及寫作時間是非常關鍵的,通過這些資訊能有助于說服那些唯莎士比亞論者,因為在他們眼裡莎翁就是一個孤傲的天才。 之前之是以人們會認為莎士比亞少有與人合作,主要原因還是那些與他合作的作家并不是非常出色。盡管計算機模型不是絕對準确的,但是以證據而非作品品質來判定作品的歸屬還是令人信服的。

其次,正确的作品歸屬讓我們更好的了解戲劇作品本身。 當我們打開一部曆史戲劇作品的第一頁,就像開始了一部關于這段曆史的電影。 由于《亨利六世》第二章的大部分可能是馬洛撰寫的,這就打破了這個曆史劇作的統一性。 馬洛更多的表現出對普通百姓角色(比如低調的傑克·凱德)的興趣,而不是那些無所不能的君主;相反, 莎士比亞更喜歡“國王之死”類似的故事。 知道同一部作品出自他們兩人之手,了解到其中的争議和共生,我們可以更好地了解戲劇本身。

據《新牛津莎士比亞》編輯之一加布裡埃爾·埃根(gabriel

egan)所說,歸因模型越來越準确,主要的原因就是“計算機研究人員越來越多地将研究精力轉向自然語言,而自然語言研究是計算機發展方向中最難的問題之一 。“在《世外桃源》中,bernard nightingale曾堅持認為”你不能把拜倫的思想放進筆記本電腦裡“。但就現在的情況來看,他的觀點仍然可能是正确的。 在控制測試中,即使像《新牛津莎士比亞》所使用的進階模式,有時也會有明顯的誤判,把作品張冠李戴。統計分析仍将是重要的分析工具之一。因為它有着學術的客觀性,隻是之前人們在莎士比亞研究領域很少用到。

以上為譯文

文章原标題《revenge of the maths mob - why literature is the ultimate big-data challenge》,由《經濟學人》釋出。

譯者:friday012 ;審校:主題曲(身行)

繼續閱讀