天天看點

《中國人工智能學會通訊》——11.4 地理實體的多模态主題特征觀點挖掘與情 感分析

随着網際網路的發展普及和社會媒體服務的興盛,人們在網絡上可以便捷地擷取和分享豐富的社會多媒體資訊。其結果是,社會媒體平台上聚集了海量的人們對實體實體的評論和情感資訊。從大規模的使用者生成内容中挖掘實體的主題觀點和分析情感是知識挖掘中的重要任務。已有的主題特征觀點挖掘的工作主要集中在文本内容處理上[4] 。在多媒體上來挖掘主題特征觀點,目前還鮮有研究工作。實際上,一個地理實體的很多主題特征方面都是多模态表達的。比如,對于北京,觀察到的地标和霧霾不僅能用文本來表達,還能很具體地用視覺圖像來描述。我們稱這樣的主題特征具有視覺表達性。這種主題特征含有清晰和具體的視覺對應形态。同時,實體的一部分主題特征沒有清晰和具體的視覺對應,例如經濟、工業等。這樣的主題特征不具有視覺表達性,其用文本描述而很難用視覺具體内容來表達。通過對實體的多模态主題的視覺表達性進行模組化,并挖掘相應的主題特征及觀點情感,能夠更好地了解目标實體。本文研究從豐富的地理社會媒體資料中,挖掘一個地理實體的多模态主題特征及對應的觀點情感。如圖 2(c) 所示,我們形式化地理實體的多模态主題特征和觀點挖掘為:輸入是一個實體的相關多媒體文檔,包括 Flickr 圖像、Tripadvisor 評論和新聞文檔。換言之,輸入文檔可以是一張圖像、一篇新聞文檔或一條評論。文檔由視覺和文本特征詞以及觀點組構成。我們提出一個生成式機率圖模型——多模态主題觀點挖掘模型(multimodal Aspect-Opinion Model, mmAOM, 如圖 2(c))來推斷輸出。mmAOM 對主題特征和觀點詞在文檔的生成過程進行模組化而學習文本和視覺模态之間的關聯關系,來區分有視覺表達性的主題特征和非視覺表達性的主題特征,以及主題特征和觀點之間的依賴關系來辨識主題特征及相應的觀點。模型輸出包括學習到的多模态主題特征、文檔的主題分布、主題特征對應的觀點。由派生的地理實體的多模态主題特征和對應的觀點,設計了實體關聯可視化和多模态主題特征檢索的應用。實體關聯可視化是要簡潔地在圖譜上可視化出實體關聯的重要主題特征和對應的使用者觀點情感。多模态主題特征檢索利用主題與觀點之間的關聯關系進行跨模态觀點檢索的任務。我們在真實的實體對象資料集中進行實驗評價 mmAOM。除了在地理實體對象(北京、倫敦、巴黎、紐約)上實驗,也在其他實體做了實驗評測,包括人物(納爾遜曼德拉、史蒂夫喬布斯)和品牌(阿迪達斯、耐克)。實驗的結果證明了提出的 mmAOM 模型在挖掘實體多模态主題特征和觀點的有效性,以及在可視化和檢索方面的實用性。

《中國人工智能學會通訊》——11.4 地理實體的多模态主題特征觀點挖掘與情 感分析

繼續閱讀