天天看點

用大資料研究唐詩宋詞,結論很颠覆

用大資料分析唐宋詩詞,結論可能超出你想象——唐代詩人中作品量居第一的白居易,影響力排在十名之外;最受追捧的詞人不是蘇轼、辛棄疾,而是周邦彥;綜合影響指數表明,杜甫高于李白、辛棄疾強于蘇轼……

用大資料研究唐詩宋詞,結論很颠覆

綜合影響指數杜甫最高

以上新發現,是國家社科基金重大項目“唐宋文學編年系地資訊平台建設”首席專家、四川大學文學與新聞學院講席教授王兆鵬分析所得。

唐詩是中國詩歌史上第一座高峰。唐代詩歌五萬多首,詩人三千餘位,詩人和詩作都達到前所未有的量級。宋代詞人近一千五百位,詞作超兩萬一千阕。

從個體詩人來看,唐詩宋詞裡誰的作品最多?王兆鵬的大資料顯示,白居易名列唐詩作品量的榜首,詩作近三千;杜甫和李白緊随其後,都超過千首大關。宋詞中辛棄疾的詞作量位居第一,有六百餘阕,其次是蘇轼、劉辰翁。宋詩的篇數,則由陸遊稱雄,凡九千多首,其次是劉克莊和楊萬裡。

用大資料研究唐詩宋詞,結論很颠覆

宋詩的篇數由陸遊稱雄

根據綜合影響指數排名,唐代詩人影響力第一的是杜甫,其次為李白、王維,而作品量居第一的白居易,影響力排在十名之外。宋代詞人作品量和影響力第一的都是辛棄疾,蘇轼和周邦彥分别居第二、第三。高居宋詩影響力榜首的是蘇轼,作品量雄居榜首的陸遊緊随其後。

提到唐詩宋詞的名家,人們習稱“李杜”“蘇辛”,似乎李優于杜、蘇勝于辛。但綜合影響指數表明,杜甫高于李白、辛棄疾強于蘇轼。更令人意外的是,最受追捧的詞人不是蘇辛而是周邦彥。在一百首和三百首宋詞名篇中,周邦彥各占15首和40首,占有率遠高于蘇、辛。

用客觀的資料去衡量、分析頗為主觀的詩詞鑒賞,是否科學、能否可行?在接受北京青年報記者專訪時,王兆鵬強調,雖然資料能在一定程度上描述顯示文學史的發展面貌和程序,但也有明顯的局限性。

用大資料研究唐詩宋詞,結論很颠覆

宋詞中辛棄疾的詞作量位居第一

30年前開始研究,積累了上百萬條資料

問:《大資料裡的唐宋詩詞世界》課題的初衷是什麼?

答:我1992年就開始做唐宋詩詞的定量分析了。初衷是每人心目中都有自己的唐宋詩詞名篇。究竟曆史上哪些唐宋詩詞被視為名篇,我想用統計資料來分析衡量。

問:那您是如何利用大資料來衡量唐宋詩詞品質的呢?這些資料是如何統計出來的?

答:唐宋詩詞作品的品質,目前還沒找到有效資料來評估、衡量。我目前正在努力嘗試建構文學作品品質的評價名額體系,以便搜集資料。這需要比較長的過程。此外,個人建立的評價名額體系,需要學界的認同和共識。

用大資料研究唐詩宋詞,結論很颠覆

問:關于文學名額體系,學界目前的研究現狀怎樣?

答:大資料時代的文學資料,需要分類分層建立起文學史資料的名額體系,以確定資料的信度和效度。但目前用大資料來做唐詩宋詞研究的學者不多,為學界共享的唐宋詩詞大資料也相當有限。

我從1992年到現在,雖然積累了一百多萬條和唐詩宋詞有關的資料,但還不完備、不均衡。有的時段資料多,有的時段資料少;有的這一類資料多,那一類資料少;有的詩人資料多,有的詩人資料少。我們常感慨“書到用時方恨少”,資料更是這樣。全方位分析唐詩宋詞時,常常覺得資料不夠用。

在我看來,文學評價名額體系應該以作品為中心來建立。作家的影響力是以作品的影響力為前提。而作品評價,可分兩個次元,一是相對穩定的作品的内在文學價值,二是動态不居的作品的外在影響力。其文學價值,可考慮從内容和形式兩個層面來評估。

作品影響力則從創作者、評論者、普通讀者三個層面來衡量。一是對創作者的影響,包括引用、化用、仿效、改編、翻譯等,展現出作品的典範性和吸引力;二是對評點者的評論和學者的研究,反映出作品在文學批評、學術研究層面的美譽度和關注度;三是在普通讀者中的傳閱度和知曉率。确定作品的價值、影響的基本要素和結構後,再建構計算模型,然後由計算機在相關資源庫、語料庫和網絡運作,挖掘提取相關資料,最後計算出每篇作品的得分。

用大資料研究唐詩宋詞,結論很颠覆

資料無法測度藝術含量和審美價值的高低

問:我注意到,您在課題裡提到,據統計,東漢到隋末近六百年,詩歌總共才五千餘首,而到唐代,詩歌第一次超過萬首并直接跨越到五萬多首,達到前所未有的高峰。唐詩比之前的八代詩增加了七倍多,詩人由六百餘位增加到三千餘位,詩人和詩作都達到前所未有的量級。這個資料從何而來,有參考哪些重要的文獻資料麼?

答:資料來源于我的老朋友尚永亮教授的兩篇論文:《八代詩歌分布情形與發展态勢的定量分析》和《 唐知名詩人之層級分布與代群發展的定量分析》。

問:白居易的詩數量最多,影響力卻在前十名開外,這是如何判定的?

答:用資料衡定的。我們用了多種資料,對唐代詩人影響力進行排名。白居易的影響力,在現當代大于古代。他的綜合影響力,遠不如李白、杜甫。

問:那您通過大資料判定唐詩宋詞品質的依據是什麼,有無樹狀統計圖來支撐?

答: 還沒有樹狀圖,在努力嘗試中。目前隻能用大資料衡量唐詩宋詞影響力的大小——包括對後代詞人創作的吸引力,對後代詞評家中的美譽度,在普通作者中的知名度等等。目前暫時還不能用資料測度唐詩宋詞藝術含量和審美價值的高低。

用大資料研究唐詩宋詞,結論很颠覆

蘇東坡詞的創作高峰是在黃州時期

戰争不是推動文化中心南移的唯一因素

問:用大資料研究唐宋詩詞有無遇到一些學術上的困難,又是如何克服的?

答:文學研究從來沒有資料意識,困難不僅在于到哪去找資料,更在于找什麼樣的資料。究竟什麼樣的資料有用有效,既需要理論的支撐,也需要在實踐中檢驗。理論上,我們不斷探求,從統計學、計量資訊學和計量曆史學中去尋找理論和方法的啟示;實踐上,反複試驗,失敗了重來。最痛苦的是,資料庫建好了,文章也寫完了,忽然發現資料來源不全,隻好從頭補齊資料,寫好的論文又推倒重來。

問:您在大資料具體研究中還有哪些新發現呢?

答:資料的意義,既能确證傳統的結論,也會修正傳統的結論,更能發現新問題,改變傳統的認知。比如,中國文化地理有一個著名的結論,中國文化中心,是由北方中原逐漸向南方移動,第一次南移是東晉永嘉之亂,第二次南移是唐代安史之亂,第三次南移是宋代靖康之亂。三次戰亂推動了文化中心的南移,靖康之亂後,文化中心就徹底移到南方。我們的大資料發現,文學中心在北宋初就完全移到南方,南方作者的數量全面超越北方,無需等到靖康之亂後。而且,戰争不是推動文化中心南移的唯一因素。

我們還發現,宋代的文學中心,是逐漸向東南沿海移動。按今天的地市級行政區劃來統計,宋代福建南平的作者人數最多,名列第一,福州居第二,這很讓人驚訝。與此相關的是,宋代進士人數福州第一,南平第二。可見當時南平、福州教育發達,進士多,詩詞作者也多。教育與文學是高度正互相的。

此外,我們還發現蘇東坡詞的創作高峰是在黃州,他三分之一的詞是在貶谪黃州期寫的,他的名篇佳作一半是在黃州寫的。比如宋詞的第一名篇《念奴嬌·赤壁懷古》就是在黃州寫的。黃州成就了蘇轼詞作的輝煌。

用大資料研究唐詩宋詞,結論很颠覆

文/北京青年報記者 張恩傑

編輯/喬穎