天天看點

主題模型:拓展人文社會科學研究新視野

作者:光明網

作者:趙秋盈(西安外國語大學研究所學生院博士研究所學生、副教授);汪順玉(西安外國語大學研究所學生院院長、教授)

近20年來,數字技術的飛速發展正在重塑人類的生産生活,以資訊為中心所産生的資料出現指數級增長,資訊過載使得依靠傳統技術處理這些資料變得越發困難,需要新的技術解圍。主題模型(topic modeling)可以從海量的文本資料中提取隐含主題,挖掘其中的問題、觀點、情感和趨勢等資訊。目前,主題模型的應用範圍在不斷拓展,除廣泛應用于商業和諸多自然科學領域外,也逐漸在教育學、社會學、文學、法學、曆史學、哲學等人文社會科學研究領域發揮更大作用。

工作原理

主題模型是一種文本挖掘技術,旨在從給定文本集合中找出隐藏的主題,并為每個文檔配置設定主題。主題模型的基本原理是,假設每個文檔都是由多個主題組成,并且每個主題都是由單詞組成。通過對單詞頻率和機率進行統計分析,主題模型能夠推斷隐藏的主題并對文檔進行分類。該技術可以對不同層次的文本(如單個句子、段落、文章、網頁、著作等)進行主題模組化。在單個句子級别上,主題模型可以被用來識别一個句子中的主題,并幫助了解該句子的含義。在網頁或社交媒體資料級别上,主題模型可以用于挖掘使用者對某個話題的觀點和傾向,了解使用者對不同話題的興趣和偏好。對于由多個章節構成的著作而言,主題模型既可以分析整書内容的主題結構和比例,也可以将每個章節作為一個文本,整合分析發現各章節主題的個數以及每個主題在不同章節的比例,由此發現整書主題分布結構和變化趨勢。

主題模型通常涉及以下四個步驟。首先是文本預處理,将文檔轉換為僅包含有意義的單詞的标記化表征,并根據需要進行去除停用詞、詞幹提取等預處理步驟。其次是建構單詞—文檔矩陣,将文檔表征為一個單詞—文檔矩陣,其中每一行代表一個文檔,每一清單示一個單詞,矩陣元素表示單詞在文檔中出現的次數。再次是建立模型,使用主題模型算法建構出每個主題的單詞分布和每個文檔的主題分布。最後是推斷主題,對于新文檔而言,可以使用已經訓練好的模型來推斷其主題分布。

主要方法

主題模型的方法多種多樣。一般而言,基于數學方法,主題模型可分為機率主題模型和非機率主題模型。機率主題模型主要包括:機率潛在語義分析(PLSA)、潛在狄利克雷配置設定(LDA)、結構主題模型(STM)和層次潛在狄利克雷配置設定(hLDA)等。非機率主題模型則主要包括:潛在語義分析(LSA)和非負矩陣分解(NNMF)等。在具體應用中,需要根據研究目的選擇合适的主題模型。這裡主要讨論三種經典的主題模型方法:PLSA、LDA和STM。

由霍夫曼(Thomas Hoffman)開發的PLSA,是一種基于詞袋的文本挖掘降維技術,也是第一個揭示語料庫文檔術語矩陣中語義共現的統計模型。該技術将潛在語義分析從線性代數的架構發展為機率統計的架構。PLSA為文本分析奠定了基礎,但也存在一些問題。該模型包含了大量參數,而且這些參數還會随文檔數量的增加呈線性增長,并且無法為未經訓練的文檔配置設定機率,如果應用于大型語料庫則容易導緻過度拟合。

為解決上述問題,布萊(David M. Blei)等學者在PLSA模型的基礎上,提出了一種更加泛化的語言統計模型,即LDA。此種方式允許文檔在内容上互相“重疊”,而不是被劃分為離散的組,進而能夠反映自然語言的典型使用方式。具體而言,在此模型中,多個主題的單詞可以按比例組成一個文檔。由于LDA具有多個生成模型,是以也很容易适應特定的應用程式需求。是以,與PLSA完全基于資料的參數估計相比,LDA可以通過參數先驗分布的引入彌補有限資料統計存在的缺陷,進而提高模型的泛化性能。

STM是對LDA模型的進一步拓展,允許将協變量(如作者、時間、評論類型、評論位置、說話者的立場等)融入文檔—主題比例和主題—詞項矩陣的先驗分布中。這樣,STM可以生成主題結構和分布比例,并呈現這些主題以不同頻率出現的上下文,同時還可以呈現主題随着時間變化的趨勢圖,以及繪制主題間的詞彙差異圖等。是以,無論是在理論最優性還是應用實踐中,STM都可以根據研究者的需要實作計算的最優化。

應用領域

自産生以來,主題模型已廣泛應用于經濟、商業、學術研究等領域。比如,在經濟領域,主題模型常被應用于金融市場趨勢預測等方面,進而有效發現市場風險和機會。在商業領域,主題模型可以分析商品評論和社交媒體文本,幫助企業了解消費者需求和态度,優化産品設計和品牌營銷政策,實作商務智能化。在學術研究中,主題模型能夠對海量文獻進行分析,幫助研究者發現文獻中的熱點話題等,進而為後續研究提供指導。下面重點介紹主題模型在傳播學、語言學、曆史學以及哲學等人文社會科學研究中的應用。

目前,計算傳播學是傳播學領域的一種發展前沿。主題模型基于應用各類媒介話語的截面和縱貫進行研究。此外,研究者還可以使用主題模型來分析社交媒體資料中的主題和趨勢,以識别公衆對某個事件或話題的觀點和态度等。總之,主題模型在傳播學領域的應用,可以幫助我們更好地了解媒體環境和公衆意見,進而為優化傳播效果提供依據。

主題模型在語言學領域的應用,主要可以分為三個方面:語音識别、文本分類和語言知識提取。首先,語音識别是将語音信号轉換為文本資訊的過程。使用主題模型對大量語音資料進行分析,可以提取出與語音信号相對應的語義主題,進而提高識别的準确率。其次,在文本分類方面,主題模型可以按照話題、說話者、文體等因素快速有效地對海量文本進行自動分類。最後,語言知識提取領域也廣泛應用主題模型。語言知識提取可以了解為,從大量文本中自動抽取出語言知識(如詞彙、文法結構、句子類型等),其結果是可以增加語言學研究的深度。

在曆史學、哲學研究領域,主題模型可以被用于研究文化史上特定時期、特定地域或特定社會群體中所涉及的主題、話題和語義特征,進而探讨不同文化、文明和價值體系之間的差異、相似性以及互動關系。比如,對中國文物中的注釋進行主題模組化,可以發現中國傳統文化中的哲學、道德與人生觀等方面的價值觀。艾倫(Colin Allen)團隊首先将主題模型引入科史哲的研究工作,借助 LDA 對達爾文所閱讀的文獻進行主題模組化,窺探其如何通過閱讀文獻積聚了深厚而廣闊的思維空間。

由于處理的文本數量在理論上不受限制,且能夠解決傳統的文本細讀無法回答的宏大叙事問題,主題模型在推動人文社會學科資料驅動的研究轉型方面作用顯著。目前,在資料分析領域,一些複雜算法、對現存資料和軟體包進行空間分析、基于關系研究的文本語義網絡分析等,都正在與主題模型深度融合。

未來挑戰

主題模型是一個相對活躍的研究領域,在實際應用中其優勢也越發明顯。随着社會文化領域基于“大資料”的研究越發普遍,相關研究工具也變得越發重要。在此過程中,主題模型迎來了發展機遇,同時也面臨一些挑戰。

第一,主題模型的穩定性問題為很多學者所關注。主題模型的穩定性問題可以表述為:當某一主題模型算法應用于具有相同參數的資料集時,在多次運作後,輸出結果并不一定保持一緻。當模型保留相同的輸入或更新文檔時,傳統的主題模型結果往往是不穩定的。那麼,如何生成一個既穩定又準确的主題模型?面對這一問題,不少研究者隻是通過随機初始化的方式,使主題模型的結果具有一定确定性。而在無監督學習中,減少不穩定性的常見政策是使用內建聚類技術,這是一種結合大型和多樣的聚類集實作更穩定、準确效果的解決方案。然而,此類研究也缺乏對主題模型不穩定性問題的多元關注。

第二,主題模型面臨的另一個挑戰是可解釋性問題。在一個主題下的詞彙有時很難找到一個上位概念來定義該主題,更何況對上位概念的總結也因人而異,難免帶有主觀性。針對此問題,評估主題模型的品質是實作産品可解釋性的一個步驟。最廣泛使用的度量方式是采用似然值(likelihood)。但似然值度量不适合在機率模型中提供良好的解釋性。主題品質的自動測量是品質檢查和可解釋性的良好選擇。此外,為了更好地解釋與主題模型相關的問題,需要為特定應用程式找到合适的主題模型,并探索多個模型之間的關系。

第三,主題模型有助于多種類型的文本分析,但應用于以叙事為主的文學文本等可能并非明智之舉。主題模型采用的“詞袋”方法,會忽略文本的文法、語境等重要内容,進而導緻“關系似乎勝過文法”的現象。而對于這種特定類型的文本,一些其他分析方法似乎更加奏效。比如,莫瑞蒂(Franco Moretti)對莎士比亞戲劇的網絡分析和赫爾曼(David Herman)的叙事邏輯模型。這些方法更加注重建立文本中對象和情節之間的關系,進而揭示文本更深層次的内涵。是以,在實際應用中,研究者需要綜合考慮文本的類型、目标和需求,選擇合适的方法進行分析和研究。

随着網際網路的迅速發展和資料的不斷增長,主題模型也将迎來更廣闊的應用前景。一方面,作為重要的文本分析方法,主題模型可以和新的統計方法、數字資料或空間資料相融合,以便更好應對文本語義的豐富性,為深化人文社會科學研究提供更全面、精準的資訊支援。另一方面,将主題模型和語義網絡分析相結合,可以使兩者互相補充,有助于了解不同主題和概念之間的相關性,進而為進一步拓寬主題模型的應用領域、增強其解釋力,提供更大的發展空間。

(本文系國家社科基金重點項目“基于文本挖掘的中國政治話語國際傳播研究”(18AYY006)階段性成果)

來源: 中國社會科學網-中國社會科學報

繼續閱讀