天天看點

研究人員用資料統計的方法來做文學研究

研究人員用資料統計的方法來做文學研究

大資料與文學,一個是理性工具,一個是感性思維,看起來似乎不沾邊。但如今,二者的聯系卻日漸緊密起來,也由此引發了不少争議。

誰是最愛往外跑的詩人?

唐宋時期最愛往外跑的詩人是誰?答案可能是蘇轼。

打開“唐宋文學編年地圖”,點選蘇轼的名字,地圖上立刻顯示出密密麻麻的足迹,西到雅安,東到蓬萊、青浦,北到定州,南到海南南部的陵水。從青年時代開始,蘇轼的腳步就一直沒停過,在他58歲那年甚至一口氣走了31個地方,堪稱中國古代一股“行走的力量”。

“蘇轼一生的軌迹資訊高達近萬條,遍布全國各地,是我們錄入資訊最多的一位唐宋詩人。”“唐宋文學編年地圖”的建立者、中南民族大學教授王兆鵬告訴《中國科學報》記者。

“唐宋文學編年地圖”在今年3月上線,是王兆鵬主持的國家社科基金重大項目“唐宋文學編年系地資訊平台”的一個研究成果。這個電子地圖的形成花費了五年的時間,100多人的團隊參與其中,負責資料的整理編寫,融合了地理資訊系統、測繪、計算機、文學等多個領域的内容。

研究人員用資料統計的方法來做文學研究

目前,這份地圖已錄入了100多位唐宋詩人的行迹資訊,範圍北至蒙古烏蘭巴托,南至越南清化。點選任何一位詩人的名字,地圖上就會出現他一生的行走路線圖,再點選任一地點,這位詩人在此創作的詩歌作品就會展示出來。如以地點或年份為關鍵詞進行檢索,則會看到某地在某個時間段共有多少位詩人來過、留下了哪些作品。于是從地圖上,我們可以看到,李白出生于西域碎葉城(今吉爾吉斯斯坦托克馬克市),王維出生于晉中,12歲的孟浩然在襄陽居鄉讀書,45歲的宋之問則從鄭州來到洛陽又到西安,寫下了多首詩作。“這張地圖的最大亮點就是打通了時空次元。”王兆鵬說。

地圖上線後,火爆程度讓王兆鵬大吃一驚,他沒想到這樣一份文學地圖引起了大衆這麼多關注。“本來項目是年底結題,我們還沒着急,沒想到一下子火了,上線第一天的點選量超過了100萬,兩天就到了220萬。大家一直在問,為什麼沒有某某詩人,是以我們現在必須要加班加點,盡快将所有詩人的資訊傳上去。”王兆鵬說。

用大量資料來展現唐宋詩人的故事,不僅有文學專業的教授在做。今年3月,一篇名為《計算機告訴你,唐朝詩人的關系到底是什麼樣的?》的文章刷爆朋友圈,很快達到了10萬 的閱讀量。這篇文章來自一位普通的程式員“前進四先生”之手,釋出于他的個人微信公衆号“前進日志”中。

在對四萬多首唐詩進行了資料整理後,“前進四先生”發現在唐朝,兩位關系最好的詩人不是李白和杜甫,也不是白居易和元稹,而是陸龜蒙和皮日休。這兩位詩人互相提到對方的次數都在百次以上,中國文學史上的第一本唱和詩集《松陵集》也是他倆的作品。從排名前30的引用關系來看,白居易絕對是唐朝詩人朋友圈中的明星。

大資料與小閱讀

用資料統計的方法來做文學研究,王兆鵬早在1992年就開始了。“當時我是系裡主管研究所學生工作的副主任,偶然一次機會在雜志上看到一篇定量分析研究所學生學位教育的文章,我就想古代文學史的研究能不能也用定量分析的方法來做。後來我寫了一篇文章《宋代詞人曆史地位的分析》,就是用量化資料來描述詞人的地位,比如什麼叫地位很高、比較高或一般。從那時起,我就開始了這個領域的研究。”王兆鵬介紹說。

在國外,也有展現中國曆代人物生平資料的資料庫,比如由哈佛大學、北京大學、台灣“中研院”合作開發的CBDB資料庫,通過字号、親屬關系、生卒年份等資料,展現人物的社會關系網。

對于大資料手段與文學研究的關系,在華東師範大學教授金雯看來,使用電腦算法來分析文本,不是讓電腦複制人腦的功能,或者更大規模地完成人腦擅長的任務。人腦和電腦在閱讀文本的時候所用的方法和關注的重點不一樣,讀出來的東西也可能截然不同。不過人腦和電腦在閱讀闡釋文字的時候也往往可以互為體用、互補短長,文學大資料分析和學者個人的“小閱讀”之間存在着許多交融和合作的可能。正因為如此,借助電腦進行文本分析是近年來不斷升溫的“數字人文”的一個重要分支。

幾年前,王兆鵬利用資料分析進行過另一項研究——唐詩宋詞排行榜,曾招來過不少争議。

2011年,王兆鵬出版了《唐詩排行榜》一書,運用統計學方法得出了唐詩前100名排行榜,排在榜首的是崔颢的《黃鶴樓》,其次是王之渙的《涼州詞》、杜甫的《登高》、王之渙的《登鹳雀樓》和張繼《楓橋夜泊》等,被大衆熟知的陳子昂的《登幽州台歌》等詩作則名落孫山。2012年,他又出版了《宋詞排行榜》,将《念奴嬌·赤壁懷古》列為宋詞第一名。

“這是通過對曆代選本、評點、論文、網絡連結總數等名額綜合計算而來的。”王兆鵬說,自己的資料采集分為三個方面,一是作家資料,包括生卒年月、創作起始時間、出生地、去世地、活動地點和在社會上扮演的身份等;二是作品資料,即作品的分類、版本、編年、系地等;三是讀者資料,包括普通型讀者、專家型讀者和作家型讀者三項。

兩本書出版後,立刻有人質疑:“對古典文學的藝術鑒賞也能列排行榜?”“甚至有人說,是不是因為你是湖北人,是以把唐詩宋詞第一名都給了寫湖北的?”王兆鵬說。但在他看來,這兩個排行榜是将現代科學手段引入到古典文學作品的研究賞析中的嘗試,是嚴肅的學術研究。“而且,我評價的不是一首詩的好壞,而是評價它的影響力和知名度。”

但在中國科學院數學與系統科學研究院研究員安鴻志看來,“影響力”仍然是個模糊的名額。“要給唐詩宋詞做排名,目的不同,名額不同,得出的結論就可能會截然不同。如果我們要辦的是跑步比賽,首先就要确定跑一萬米還是一百米,男子還是女子,個人還是接力,一旦确立名額,比如男性100米個人短跑,那麼世界第一就是唯一解。可是對于唐詩宋詞,會有唯一解嗎?同樣是看影響力,如果名額是‘哪首唐詩被現代人記住的最多’,那有可能是《靜夜思》;如果把名額設為‘哪些詩句在日常生活中使用頻率最高’,答案又可能會是‘粒粒皆辛苦’。話說回來,沒有唯一解就不能去研究嗎?”安鴻志說,“當然也不是,這項研究是有價值的。但你要承認,名額不唯一,得出的結論也不唯一,這才是科學方法、科學态度、科學結論。”

正确利用大資料技術

在王兆鵬看來,哪首詩詞排第一名倒也在其次,這些詩詞為何能從古至今一直為人們所熟知,這其中有何傳播規律,更能引起他的興趣。 “比如,除了詩本身之外,故事對作品的傳播有着非常重要的助推力。”王兆鵬解釋說,“崔颢的《黃鶴樓》在古代非常有名,為什麼?一個重要原因是李白很欣賞。李白到黃鶴樓後想寫一首詩,後來因為 ‘崔颢題詩在上頭’便擱筆未寫。這在宋代還成了一句俗語 ‘莫因崔颢不題詩’。是以曆代唐詩選本,沒有不選《黃鶴樓》的。王之渙的《涼州詞》也有 ‘旗亭畫壁’的故事流傳至今。”

此外,這些唐詩宋詞大資料還能告訴我們一些其他的資訊。“一般認為,北宋王朝的毀滅代表了中國經濟文化重心南移的真正分野。但通過大資料,我們可以看到,中國詩壇重心的南移始于晚唐五代,完成于北宋。唐宋詩歌版圖南移的時間和社會經濟重心南移的時間并不完全一緻,這打破了我們一些固有觀點。”王兆鵬說。

通過資料整理,王兆鵬還統計出,唐宋詩人創作的優秀作品大多是在落後地區完成的,在失意受貶谪的地區更可能誕生名篇。“而且優秀作品的作者大多不是本地人。比如黃州、惠州打名片愛說蘇轼,可蘇轼是四川人;寫黃鶴樓那麼多名篇,可沒有一個人是湖北人寫的。”