天天看點

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

作者:測繪學報
測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

本文内容來源于《測繪學報》2021年第10期(審圖号GS(2021)6119号)

基于主題模型的地理環境時空資料隐含語義了解

朱傑1,2,張宏軍,1 廖湘琳,1 田江鵬3

1. 陸軍工程大學指揮控制工程學院, 江蘇 南京 210002;

2. 73021部隊, 浙江 杭州 315023;

3. 資訊工程大學地理空間資訊學院, 河南 鄭州 450001

基金項目:中國博士後科學基金(2019M664028);國家自然科學基金(41701457)

摘要:文本是戰場資訊的重要資料模态,從中挖掘地理環境時空語義資訊是機器了解戰場環境的重要方法,有助于擴充戰場環境的空間認知與了解。本文設計一種基于主題模型,反映地理時空因素與事件主題之間語義關系的計算方法,通過資訊抽取,挖掘主題要素相關資訊,形成不同主題分類及其對應的特征詞彙分布;将事件主題與地理時空語義特征建立聯合分布模型,自動發現時間、空間與事件主題之間的相關性,進而生成地理時空隐含的語義主題。通過試驗驗證并結合應用實踐,得到如下結論:利用事件主題與位置資訊的關聯,并應用空間分析方法探尋不同主題的時空分布規律,可為新事件的位置預測及趨利避害對策制定提供基礎,進而拓展傳統的地理事件主題分析。

關鍵詞:主題模型 地理環境 時空資料 語義了解 空間分析

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解
測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

引文格式:朱傑, 張宏軍, 廖湘琳, 等. 基于主題模型的地理環境時空資料隐含語義了解[J]. 測繪學報,2021,50(10):1404-1415. DOI: 10.11947/j.AGCS.2021.20200380

ZHU Jie, ZHANG Hongjun, LIAO Xianglin, et al. Latent semantic understanding of geographical environment spatio-temporal data based on topic model[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(10): 1404-1415. DOI: 10.11947/j.AGCS.2021.20200380

閱讀全文:http://xb.sinomaps.com/article/2021/1001-1595/2021-10-1404.htm

引 言

了解戰場環境,是指作戰人員對戰場空間的了解,由空間、空間知識的表達方式,以及運用推理生成新知識的能力而構成的認知思維,一般通過心象、紙圖或者計算機等工具将戰場環境可視化,進而建立與環境可互動的思維活動[1]。在了解過程中,無論是作戰人員本身對空間的了解,還是不同人員之間的互相溝通,地圖、文本是記錄和傳輸戰場環境資訊的最基本的兩種模态,特别是作戰過程中産生大量的非結構化資訊,如各類作戰文書。文本是其最主要的載體之一,越來越多地成為一種主要資訊媒介的資料模态,是表達戰場環境資訊的重要形式。然而,文本除了具有通用知識的内涵和特點之外,還承載了描述戰場的時間、空間、事件和資源等豐富資訊,具有特定的地理時空特征。戰場文本資訊不僅包含了作戰任務語義資訊,還蘊含了豐富的地理空間語義資訊,表現為同一任務區域的空間資料隐含語義會随着時間的不同而發生變化,相似任務主題的位置資料隐含語義也會随着空間的不同而發生變化。由此,地理環境時空資料的隐含語義資訊既存在時間上的變化,也存在空間上的變化。

面對大量的戰場文本資料,以傳統的人工方式了解戰場環境資訊已經不能滿足高效、準确的需求,如何利用人工智能的理論和方法,由機器對資料進行自動擷取、學習與解譯,進而輸出與人腦認知思維相符的計算結果,是目前戰場環境空間認知和了解在大資料環境下所面臨的挑戰。自然語言處理技術的發展為文本資料了解提供了新的思路和方法,也為戰場環境資料了解提供了新的工具。如何從大量的戰場文本資料中擷取地理環境知識,如何利用機器學習技術挖掘與事件主題相關的地理環境時空語義資訊,如何對不同時空主題進行管理、檢索和推理,這一系列問題,都是機器了解戰場環境資料過程中所要解決的關鍵問題。其中,如何融合事件主題對地理環境時空主題進行抽取與分析,成為戰場環境資訊了解的核心問題之一。通過提取帶有地理空間辨別的文本主題來挖掘任務指定的實施作戰行動的區域空間資訊及其對應的意圖,擷取作戰行動模式轉換、任務事件焦點時空演變及地理環境效能變化等知識,為行動方案推薦、戰情趨勢預判、威脅目标預警分析等軍事服務提供有力支撐。

本文立足現有研究基礎,通過分析戰場文本資料句法結構,提出一種融合任務事件主題的地理環境時空主題模型,建立地理時空因素與事件主題之間的語義相關性計算方法。通過對文本資訊中蘊含的時空分布、地理環境要素特征及影響效能等規律進行分析,考慮事件主題偏好對時空資料隐含語義資訊的影響,建立事件主題與時空語義特征的聯合分布模型,自動發現時間、空間區域與事件主題之間的關聯關系,生成地理時空隐含的語義主題,以提高定位應急事件時空資訊的準确性,為有效識别異常區域的分布規律提供支援。

1 相關研究工作

時空語義資訊是表示現實事物所代表的時空概念和含義及其互相之間的關系,是資料在時空域上的解釋和邏輯表示,對于各類事件資訊的挖掘有着關鍵作用[2-3]。戰場環境時空資料描述了戰場環境的時間和空間屬性,是戰場環境的基本組成要素,從不同粒度記錄了不同層次的戰場環境各要素的活動資訊。了解戰場環境時空資料語義對于深挖戰場環境各要素作戰效能、提高作戰計劃推演評估精度、提升态勢推理與威脅估計效率有着關鍵作用。例如,利用數學方法描述地理實體、地理現象及其互相之間的時空關系,形式化描述戰場環境對聯合作戰活動影響的基本規律[4];利用全球空間立體網格剖分并對時空資訊進行編碼,簡化複雜的時空運算以提高時空屬性定量表達的精确性[5];利用模闆比對與貝葉斯網絡相結合的推理算法處理高維時空資料,建立有效推理模式以合理預估敵軍行為模式和作戰意圖[6]。總之,準确了解戰場環境時空語義資訊對于戰場資訊融合有着十分重要的意義,随着戰場時空資料類型與體量持續增長及作戰應用深入需求,将會越來越多地受到不同作戰領域的關注。

目前,随着以深度學習為代表的人工智能技術的發展,從方法上,戰場環境時空資料語義了解由傳統的基于規則的模式比對向基于資訊識别與分類的自主學習發展,并在無人平台、知識圖譜、輔助決策等方面取得了一定的研究進展。國内,文獻[7]針對現有無人自主平台在複雜環境上認知和了解不足,提出建立任務關聯環境模型形成持續自主學習模式,在不斷的資料互動中實作機器對環境的了解;文獻[8]通過建構基于深度認知神經網絡,從戰場情報中高效準确地發現有價值資訊,擷取多源情報隐含的關聯分析,進而提取滿足需求的可了解并利用的時空知識;文獻[9-10]從語義層面統一多源異構的戰場環境資料資源,利用知識圖譜內建融合各類概念關系,提高時空知識整體認知水準;文獻[11]将深度學習方法應用于态勢了解,以使用者需求和作戰任務的綜合情境作為知識過濾限制條件,實作對相關語義知識的自動檢索,提高輔助決策的智能化程度[11]。國外,美軍從2007年提出“深綠計劃”開始,一直緻力于計算機對戰場資料了解及智能化處理的研究,并在最新的《2017-2042年無人系統發展路線圖》中将語義了解和語義分析技術作為無人指揮資訊系統關鍵技術,包括自然文本、圖像、語音等各種類型載體的自動整合及生成,利用深度學習方法從戰場擷取的各類資料中抽取隐藏的有價值特征,用于模式識别、特征分類、關系挖掘及事件預測,實作從不确定資訊中了解資料、分析結果和推理關系[12-13]。

從戰場文本中提取相關地理環境時空主題,是地理環境時空資料語義了解的首要解決問題。盡管上述文獻從不同角度利用時空資料處理與分析方法,闡述時空語義了解的相關技術和應用,但是從時空主題角度研究戰場環境時空資料挖掘中的相關任務,特别是對其隐含語義資訊挖掘的相關工作尚未完善。目前,主題模型作為文本挖掘的重要數學模型,已廣泛應用于遙感影像分類及檢索、地理資訊分類與融合、位置軌迹資料挖掘及地理時空主題提取等方面[14-17],通過基于抽象文檔主題的統計模型研究了在不同主題分類下時空資訊提取與時空事件發展規律并取得了一系列成果[18-21]。這也為地理環境時空主題挖掘提供了基礎模型。為了進一步研究任務事件與時空主題之間的相關性,挖掘影響事件主題特征的時空因素,擷取地理環境時空資料隐含語義資訊,本文借鑒GIS領域研究者從融合地理位置及其相應的區域環境特征語義出發,按照不同時空語義變化條件,挖掘地理位置中的隐含語義資訊。如,文獻[22]利用web日志提取公共主題來發現時空主題模式,分别通過給定位置生成的主題生命周期和主題快照的比較分析,發現主題模式的演變;文獻[23-24]從空間、時間和行為3個方面建立一個聯合機率模型,有效地應用于社交網絡生成的與地理資訊相關的文本資訊主題發現;文獻[25]考慮使用者位置的馬爾可夫性質,提出一種基于主題多樣性、地理多樣性的社交網絡文本資料的多樣性模組化算法;文獻[26]結合移動位置資料,提出一種新的位置和文本相結合的聯合模型,能有效地找到熱點位置和感興趣的區域,解決地理分布與主題模組化之間關系問題。

2 方法

地理環境時空資料隐含語義與文本主題密切相關,并通過相關的主題特征詞彙進行表達。具體展現為:不同空間區域對其範圍内的任務事件主題影響程度是不同的,通常與地理環境的軍事效能相關,如不同地貌對機動任務的影響,反映在文本中由“越野機動”或者“道路機動”等相關功能性詞彙相組合進行描述,以表示山地或者平原區域;不同時間對其階段内的任務事件主題也會産生不同的影響程度,如一日内白天與夜晚對道路機動速度影響程度不同,一年内雨季與非雨季對道路機動速度影響程度也不同。

因而,為了有效判别不同時空區域對任務事件主題的影響程度,挖掘時空資料的隐含語義,形成時空資料語義了解過程,主要采取如下的解決方法:資料擷取、資料預處理和資料主題計算等。如圖 1所示。下面重點闡述資料主題計算過程:①分析戰場文本的句法結構,通過資訊抽取的方法抽取主題要素,建立基于LDA的事件主題分類及其對應的特征詞彙分布;②通過建構基于事件的地理環境時空主題模型,将事件主題與空間、時間特征詞彙建立聯合分布,提高時空資料隐含語義擷取的準确性;③基于支援向量機方法結合主題模型實作地理時空主題的實時分類,以滿足實時資訊的主動發現需求。

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

圖 1 地理環境時空資料隐含語義了解過程 Fig. 1 Latent semantic understanding process of geographical environment spatio-temporal data

圖選項

2.1 基于句法分析的主題要素抽取

戰場文本資料是指戰場資訊以文本形式進行描述和傳遞的各類資料,包括各類指令、訓示、計劃、方案、請求、報告等。為了從這些非結構化資訊中抽取出與地理環境資訊相關的主題資訊,首先對其進行句法分析,擷取主題要素的結構組成及其語義特征。由于戰場文本在通常情況下都是按照軍用文書的格式進行編輯,因而其資料的語義結構在一定程度上符合軍用文書的編寫規範,并具有以下幾個特征。

(1) 句法結構相對固定。戰場文本基本上以陳述句為主,且句式簡短,其中複合句的形式也以簡單謂語構成的并列複句為主,較少出現連詞構成的複雜句式,如連貫複句、遞進複句等。

(2) 文本内容層級易解。從内容對象上,分為對象的靜态狀态描述(如部隊部署位置、時間等資訊)和動态行為描述(如部隊行動路線、行為規劃等資訊);從内容詞義上,内容描述按照文字字面意思組合而成,有利于人機了解。

(3) 語義描述明确無歧義。為了確定不同資訊系統對戰場文本的一緻性了解,文本語義描述必須是明确清晰,避免出現歧義現象。

從上述特征可以看出,在文法結構上,戰場文本資料通過具有一定文法結構的句子來描述事件發生過程,即“主語+謂語+(賓語+狀語+…)”;在語義表達上,戰場文本資料語義結構由主體、行為關鍵詞、客體及相關屬性等主題語義要素組成。是以,可将其形式化描述為四元組模型,即:主題語義要素=〈主體,行為關鍵詞,客體,屬性〉。

其中,構成主題語義要素中的每一項元素都可以與句中的詞組相對應,形成特征詞組與主題要素相關聯的模式。具體表示為:主語對應事件發生的主體,一般由名詞、數量詞組合表示;謂語對應事件發生的行為,一般由動詞表示;賓語對應事件發生的客體,一般由名詞、數量詞組合表示;其他部分描述對應事件發生的相關屬性,如時間、位置等,一般由名詞、代詞、介詞等組合表示,文本詞組主要以實詞構成,較少出現虛詞。

采用正規表達式進一步将文本主題要素與詞組以字元串的形式相比對,進而将文本語義轉換為詞義組合表達[27]。作為主題要素自動抽取的基本模式,以一個簡單句semPattern作為執行個體,使用正規表達式如下

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

式中,subject_noun表示主體名詞;behkey_verb表示行為關鍵動詞;object_noun表示客體名詞;attribute_phrase表示屬性詞組;option_modifier表示修飾詞組;表示所必須組成要素;表示可選項;“^”表示字元串序列開頭辨別;“|”表示語義比對邏輯;“+”表示字元串表達式可多次比對;“$”表示字元串序列結尾辨別。時空語義資訊通常是以屬性詞組形式進行描述。由此可将attribute_phrase進一步分解為表示空間語義的where字元串和表示時态語義的when字元串,即

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

以某個文本片段為例:“2連于4月08日12時占領1号地域南側”,其相應的正規表達式分解如下

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

2.2 基于LDA的任務事件主題分類

戰場文本資料内涵豐富,但是語義主題比較明确。以作戰任務資訊為例,任務事件内容包括行動目的、行動對象、行動類型、時空資訊及其他屬性資訊,每一條資訊又可以按照層次和尺度進行分解,歸類至不同執行者,按照相應的主題形成具體的行動序列。任務事件主題分類與文本分類相似,将任務事件映射為一篇文檔,任務中的意圖或者目的作為一個主題,每個事件的主體和客體對象關聯的屬性及其行為活動作為單詞。一個目的任務相當于主體和客體對象完成行為過程的集合,包括任務執行對象、地理環境對象、行為作用等,在文檔中映射為構成上述事件主題要素特征的詞彙,如描述任務下達者、執行者、行為以及區域、興趣點、位置、作用關系、時間等相關主題特征詞彙。

潛在的狄利克雷分布(latent Dirichlet allocation,LDA)模型是一個建立“文本-主題-詞彙”3層貝葉斯模型,通過主題分布與詞分布的概念,能夠将文檔轉換到主題空間進行分析,根據主題進行語義區分,進而獲得文檔在隐主題空間的表示,也就是既能将詞彙聚類成主題,也能将文檔聚類成多個主題[28-29]。

是以,使用LDA模型能夠抽取構成主題要素的特征詞彙,并得到事件主題分布。具體方法是:①将戰場文本集合記作D(d1,d2,d3, …,dn),每一篇文檔d内容可視為由不同任務事件主題混合組成,每個文檔按一定的機率分布表達多個主題,設目前按照任務主題區分擷取已知主題數為K;②在前述句法結構分析基礎上,通過分詞、過濾、關鍵詞提取等步驟,生成描述主題要素的關鍵詞集W(w1,w2,w3, …,wn),每個主題按一定的機率分布選擇不同的詞彙進行表達,也就是由若幹描述事件主題要素的詞彙構成一個機率分布;③通過Gibbs采樣,由每個詞彙在不同的文檔中對應不同的主題機率得到相應主題分布,生成主題集Z(z1,z2,z3, …,zn),同時輸出基于主題集Z下的詞彙分布Wd。由機率圖來表示LDA模型實作過程,如圖 2所示。

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

圖 2 基于LDA模型的事件主題分布過程 Fig. 2 Event topic distribution process based on LDA model

圖 2中,空心圓部分表示潛在機率,wd,n表示文檔d中第n個詞彙機率,zd,n表示文檔d中第n個詞彙所對應的主題機率,θd表示文檔d中主題分布機率,ψk表示組成主題k的詞彙分布機率,α表示文檔中主題分布的超參數,β表示主題中單詞分布的超參數;矩形框部分表示重複的過程,M表示文檔中詞彙個數,Q表示文檔個數,K表示文檔主題個數,分别用于每個矩形框内容重複的次數。由此,通過主題分布的采樣擷取任務事件主題z,通過基于主題z下詞彙的分布機率擷取詞彙w,并不斷地重複上述過程直至文檔主題對應的所有詞彙生成完畢。

利用OPTICS聚類方法[30],可對每個任務事件每個主題機率分布進行聚類分析,獲得相對集中的任務事件主題分類結果,與作戰任務類型相結合,将描述相似任務類型内容的詞彙合并為一個大主題,形成具有層次結構的事件主題分類。表 1為部分相關主題的特征詞彙分布。

表 1 部分相關主題分類及其特征詞彙分布 Tab. 1 Topics classification and distribution of feature words

聚合後事件主題分類

聚合前事件主題分類

部分主題特征詞彙及其分布

履帶機動

越野機動

營(0.084 771)、山地(0.074 015)、隊(0.056 074)、坡度(0.055 489)、速度(0.040 722)、土質(0.036 868)、紅色(0.031 419)、高度(0.026 701)、小時(0.022 352)、方向(0.005 452)、到達(0.002 304)、…

涉水機動

營(0.079 268)、水體(0.074 621)、距岸(0.068 895)、隊(0.055 174)、時速(0.046 957)、水深(0.027 042)、流速(0.018 907)、紅色(0.017 887)、小時(0.015 076)、風速(0.003 968)、直航(0.002 474)、…

陣地防禦

堅固陣地防禦

團(0.095 777)、營(0.090 165)、防禦(0.074 781)、陣地(0.052 913)、要點(0.043 963)、扼守(0.042 024)、高地(0.027 475)、阻止(0.019 793)、構築(0.018 967)、一線(0.004 037)、伏擊(0.000 914)…

野戰陣地防禦

營(0.076 456)、隊(0.068 597)、防禦(0.065 065)、野戰(0.058 049)、陣地(0.048 953)、要點(0.047 887)、高地(0.045 522)、公路(0.028 239)、地段(0.019 336)、配置(0.006 642)、一線(0.002 738)…

表選項

2.3 基于事件主題的地理環境時空主題模型

按照空間相關性原理,地物之間的相關性與距離有關,距離越近,地物間相關性越大;反之,地物間相關性越小。在文本中由自然語言描述空間資訊,利用詞彙之間的語義相似性來反映空間對象之間的相關性,由此通過聚類方法發現地理時空主題,即如果兩個詞彙語義對事件主題的描述很相似,那麼它們極有可能屬于同一空間區域;如果兩個詞彙語義描述同一空間區域,那麼它們就可被聚類為同一空間主題。

為了能夠有效擷取時空主題,每個文檔經主題要素抽取後,形成由實體詞向量組與描述空間、時間、事件等主題特征的屬性詞向量組組成,即d={wd,rd,td,zd},其中wd表示文檔經過分詞與實體抽取後形成的實體詞向量組;rd表示文檔中描述事件相關的空間特征屬性的詞向量,如事件發生位置的經緯度;td表示文檔中描述事件相關的時間特征屬性的詞向量,如具體日期與時間點;zd表示文檔經主題分類後描述事件主題特征屬性的詞向量。

利用LDA主題模型對上述詞向量建立聯合分布模型,通過對事件主題模型的改進,建構地理時空主題模型。其思路是:①通過LDA模型将高維的“事件文本-時空特征”資料矩陣降維成“事件文本-主題-時空特征”低維資料矩陣,利用“文檔-主題-詞彙”3層貝葉斯模型計算“事件文本-主題”、“主題-時空特征”的分布并分别得到事件主題、空間主題及時間主題的多項分布參數;②由主題分布參數計算每個事件文本對應的時空主題機率方差并對其進行排序,獲得相應的時空主題分布;③按照一定的門檻值過濾不符合實際的主題,并對滿足門檻值條件的主題記錄其對應選擇的特征詞彙分布。由機率圖模型表示其實作過程如圖 3所示。具體實作過程如下:

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

圖 3 時空主題模型實作過程 Fig. 3 Implementation process ofspatiotemporal topic model

(1) 由設定超參數α0的Dirichlet分布,采樣得到文檔中事件主題z分布參數θ0。

(2) 由設定超參數β0的Dirichlet分布,采樣得到文檔中每個事件主題z=1, 2, …,k對應的實體詞的條件機率分布ϕz。

(3) 從空間域上,按照任務事件尺度,在全局條件下劃分任務執行空間區域集R,R={r1,r2, …,rn},每個區域r内包含地理環境要素空間屬性及其效能特征:①在位置特征上,采用基于經緯度l(longitude, latitude)由位置均值向量μ和協方差矩陣ε構成的高斯分布,由此形成具有軍事效能的局部地理主題分布,并對各自任務區域内的事件主題産生影響;②由設定超參數η0的Dirichlet分布,采樣得到文檔中空間區域r的主題分布參數ηr;③由設定超參數γ0的Dirichlet分布,采樣得到文檔中每個事件主題對應的區域R地理實體詞彙的條件機率分布λgeo。

(4) 從時間域上,文本中往往描述的是一個時間點,如以“年-月-日時:分:秒”格式描述事件相關的時間變量。為了避免這種離散時間造成跨度大小不一的問題,在時間特征上采用Beta分布,從Beta(δ0)中采樣得到每個事件主題z=1, 2, …,k對應的時間分布參數φz,以此描述不同僚件主題時間連續變化的強度[31]。

(5) 從主題域上,一個文檔的主題由背景主題分布和區域主題分布共同影響,主題表達通過相應的詞向量的語義進行描述,反映在事件文本上對應事件主題分布和區域地理主題分布。對于每個事件主題z=1, 2, …,k,由θ0、ηr、λgeo建構主題多項式分布,從中抽取形成任務事件主題分布Zd和區域地理主題分布Zgeo。

(6) 依據事件主題分布Zd對應實體詞的條件機率分布ϕz,與區域地理主題分布Zgeo對應地理實體詞的條件機率分布λgeo,分别從其多項式分布中抽取相應的詞彙w,并依據Beta(δ0)對應的時間分布參數φz抽取相應的時間詞彙t。

任務事件主題Zd所包含的地理時空詞彙W在語義上與區域地理主題分布Zgeo相關聯,而區域地理主題分布Zgeo又從語義上反映了時空主題類型的區域分布,是以,這裡依據任務事件主題Zd、區域地理主題分布Zgeo建立聯合分布機率P。引入上述時空主題模型中各元素求解相應主題中潛在變量的詞彙分布W,使用歐拉公式可得如下依賴關系

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

(1)

式中,事件主題分布參數θ、區域空間主題分布參數η和實體詞彙主題分布參數ϕ計算公式如下[31],相應的主題類型條件機率分布可基于主題分布參數進行求解

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

(2)

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

(3)

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

(4)

對于每個文檔,利用Gibbs采樣估計主題模型參數,生成空間區域、位置、事件和詞彙的主題分布并分别滿足以下相應的條件機率分布。

(1) 生成潛在的空間區域分布R,使之滿足

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

(5)

式中,η0滿足空間全局分布;ηz滿足任務事件主題空間區域分布,表示潛在的空間區域分布依賴于空間全局分布和任務事件主題區域分布。

(2) 生成位置分布L,使之滿足

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

(6)

式中,μ為位置均值向量;ε為協方差矩陣,表示每個位置依賴于潛在空間區域并服從高斯分布。

(3) 生成主題分布Z,使之滿足

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

(7)

式中,θ0滿足主題全局分布;θz滿足事件主題分布;θgeo滿足區域地理主題分布,表示根據空間區域分布和位置分布,潛在主題分布依賴于事件主題和區域地理主題。

(4) 生成詞彙主題分布W,使之滿足

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

(8)

式中,ϕ0為全局事件主題參數;ϕgeo為區域地理主題參數,表示特征詞分布依賴于主題分布。

改進後的基于LDA模型計算時空主題分布算法過程如下所示。

算法1:基于LDA模型計算時空主題分布算法過程

輸入:文檔向量集合{d},主題數目k,超參數α0、β0、η0、γ0、δ0

輸出:多項分布參數θ、ϕ、η,主題類型分布{zd}以及對應的詞分布{wd}

(1) 初始化參數。

(2) 主題采樣:

for all文檔m∈[1, M] do

for all單詞n∈[1,Nm]in文檔m do

采樣Zm,n,使得Zm,n=k~multi(1/K)

更新相應m,n計數

(3) Gibbs采樣:

for all文檔m∈[1,M] do

for all單詞n∈[1, Nm] in文檔m do

多項分布采樣,利用式(1)使得滿足

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

~p(zi|z-i,w)

(4) 檢查收斂性,讀取主題分布參數:

if收斂且達到門檻值then

歸一化參數;

利用式(2)-式(4)讀取相應的主題分布參數

(5) 基于上述參數計算主題分布及詞分布,分别滿足式(5)-式(8)。

2.4 基于支援向量機的實時主題分類

由于軍事語料标注樣本的局限,為了能夠利用文本特征學習實作文本的主題檢測,采用監督學習方式中的支援向量機(support vector machine, SVM)方法,在基于訓練樣本的學習特征基礎上,建立機器學習模型,解決小樣本情況下的機器學習問題,進而當新的任務事件文本輸入時,結合SVM通過主題模型判斷文本中對應的地理時空主題類别,實作時空主題實時分類。

(1) 對已有的樣本資料按照主題分布的機率進行排序,找出文本集合中隐含的地理時空主題,将其作為已發現的主題。

(2) 利用SVM算法建構時空主題分類模型,基于已發現的地理時空主題及其特征詞彙分布作為文檔樣本集,将建構的聯合主題分布特征向量作為輸入。如下所示

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

(9)

式中,m為樣本個數;x(i)、y(i)分别為樣本i輸入、輸出值;ωTx(i)+b=0為超平面;ξi為第i個樣本的松弛系數;C為懲罰系數。

(3) 采用徑向基高斯核函數k(x,y)=exp

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

,使得資料從低維特征空間映射高維特征空間,以解決非線性分類問題。其中σ是使用者定義的确定到達率,可以通過周遊搜尋所有文檔,設定多個參數進行交叉驗證計算後得到最優值σ,滿足主題分類擷取最高精度。

3 試驗與應用分析

3.1 試驗資料

本文以某戰術訓練場為研究區域,試驗資料集選用近年戰術演習導調系統采集獲得的文本資料,包含690個計劃、2250條指令、695條訓示、1035條報告等共4670篇文檔,如表 2所示。位置資料采用的是該區域1∶5萬系列比例尺矢量地圖資料,各類文本資訊均包含位置、時間及相應事件主題資訊。

表 2 文本資料源及其分類 Tab. 2 Document datasets and classification

來源

采集時間

文檔數量

分類及其數量

演習A

2015年3月

1156

計劃(159)、指令(560)、訓示(168)、報告(269)

演習B

2015年4月

1197

計劃(193)、指令(563)、訓示(185)、報告(256)

演習C

2015年7月

1179

計劃(178)、指令(569)、訓示(178)、報告(254)

演習D

2015年9月

1138

計劃(160)、指令(558)、訓示(164)、報告(256)

對上述戰場文本資料内容按要素進行标注形成訓練樣本語料庫,見表 3。

表 3 部分訓練樣本語料片段示例 Tab. 3 Part of training sample corpus

文檔

詞彙

詞性

标簽

〈ent: org〉機步第100團〈/ent: org〉〈key: grp〉占領〈/key: grp〉〈ent: loc〉萬羊碑(16, 84)〈/ent: loc〉,〈ent: loc〉412高地(12, 85)〈/ent: loc〉,〈ent: loc〉401高地(13, 89)〈/ent: loc〉,〈ent: loc〉蠍子山(15, 88)〈ent: loc〉〈oth: f〉一線〈/oth: f〉。〈ent: org〉團指〈/ent: org〉〈key: grp〉設〈/key: grp〉〈ent: loc〉391高地(14, 87)〈/ent: loc〉

機步第100團

實體名詞

ent: org

占領

動詞

key: grp

萬羊碑(16, 84)

位置名詞

ent: loc

412高地(12, 85)

401高地(13, 89)

蠍子山(15, 88)

一線

方位詞

oth: f

團指

391高地(14, 87)

3.2 試驗設計及精度評估

本試驗利用上述已有的文檔語料庫進行模型主題分類驗證。将文檔樣本集随機分組,其中80%作為訓練集,20%作為測試集,建構主題模型輸入的文檔集D。采用perplexity[32]名額計算戰場文本的時空主題數K。首先,設定K∈(4, 120),利用80%的訓練集計算此時的時空主題分布及其perplexity值域;其次,在訓練集計算的時空主題分布基礎上,利用20%的測試集計算此時的時空主題分布及其perplexity值域;最後,基于perplexity分布曲線确定主題數K,同時通過交叉驗證,得到模型的準确率。

如圖 4所示,試驗中perplexity名額分布曲線按照主題數K的增加而不斷下降,且下降趨勢逐漸減小。當K=4時,perplexity值最高,接近750;當K在(4, 40)區間時,perplexity值随K值增加而迅速下降;當K>40時,perplexity值随K值增加趨于穩定。由此,當K=40時作為主題數臨界值,文本主題的可信度并未随K值增加而明顯提高,因而,選擇主題數為40。

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

圖 4 不同主題數量下困惑度比較 Fig. 4 Comparison of perplexity values with different topics

此時計算文本的時空主題分布機率,表 4所示為部分主題類型及其所對應空間對象的分布機率。同一主題下分布機率較高的空間對象突出了與事件主題緊密聯系的相關特征表達,從影響任務事件的效能特征上反映了時空主題類型。如主題6中“公路”“街區”“車站”“村莊”等空間實體類型,反映了道路機動相關時空主題;主題17中“高地”“樹林”“密灌”“沖溝”“沼澤地”等空間實體類型,反映了越野機動相關時空主題。

表 4 不同時空主題類型對應的部分空間實體對象分布 Tab. 4 Distribution of spatial entity objects corresponding to different spatio-temporal topics

時空主題6

時空主題17

空間實體

分布機率

公路

0.071 889

高地

0.040 806

村莊

0.048 066

樹林

0.028 773

車站

0.011 889

密灌

0.014 961

街區

0.006 328

沖溝

0.007 772

橋梁

0.001 867

沼澤地

0.002 588

根據上述方法擷取樣本資料的分類精度,如表 5所示。在3736個訓練樣本中,3347個任務事件被提取主題分布,其中2881個樣本被正确提取時空主題,分類精确率為86.1%;在934個測試樣本中,819個任務事件被提取主題分布,其中702個樣本被正确提取時空主題,分類精确率為85.7%。由此,總體上說明該模型适合對戰場文本資料從任務事件主題中提取相關的時空主題分類。

表 5 時空主題分類精度 Tab. 5 Classification accuracy of spatiotemporal topics

主題類型

訓練樣本

測試樣本

時空主題

2881

702

事件主題

466

117

合計

3347

819

精确率/(%)

86.1

85.7

召回率/(%)

90.0

88.7

F1值/(%)

88.0

87.2

3.3 應用分析

為了驗證上述方法在實際應用中的可行性與價值,将基于任務事件的地理環境時空主題模型對戰場文本資料進行主題資訊抽取和語義相關性分析,應用于時空主題趨勢及不同主題下時空分布特征分析,以驗證隐含語義了解方法的可行性,進而為資料挖掘自動化提供支撐。

3.3.1 時空主題趨勢分析

在上述樣本的基礎上對任務事件及地理時空主題資訊進行抽取。選取某一個時間階段任務過程所包含的文本資料來計算不同主題所占的比例,随着時間變化相應的主題比例發生規律性變化,如圖 5所示。線狀表示事件主題,點狀表示地理主題。從主題相關性角度,分析任務事件主題與時空主題之間存在的語義關聯性,發現地理環境對任務事件所具有的軍事效能;從主題發展趨勢角度,分析不同主題在時間軸上的分布,發現事件主題的發展過程規律。

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

圖 5 不同主題随時間變化所占比例發生變化 Fig. 5 Trend of proportion under different topics over time

(1) 主題相關性分析。由圖 5可以看出,每個任務事件主題關聯着若幹個時空主題,每個時空主題又關聯着若幹個空間實體對象。利用統一資源描述架構RDF來描述兩者的語義相關性,見表 6。采用“主語-謂語-賓語”結構描述“主體-語義關系-客體”,能夠清楚地陳述主題資料之間的對應關系,從軍事效能上進一步表達時空主題隐含語義資訊。

表 6 部分事件主題與地理主題的語義關系 Tab. 6 Semantic relationship between event topic and geographical topic

主體

客體

語義關系

主題比例

道路機動

接近路

和…相關

0.072 093

地面障礙

0.058 699

觀察與射界

0.022 534

道路

0.056 357

植被

0.035 188

居民地

0.025 817

以任務事件主題“道路機動”為例,其關聯較密切的地理主題有“接近路”“地面障礙”“觀察與射界”,其中“接近路”與任務事件的相關度最大,空間實體對象“道路”相比“植被”“居民地”等對地理主題“接近路”影響要大,這與地理環境實體對任務影響效能結果是一緻的。是以,一個任務事件主題随着事件時間發展,事件發生區域地理主題的變化能夠反映事件發展不同階段所關注的時空對象。通過分析時空對象的主題相關性,能夠進一步從語義上解析時空資料裡面隐含的主題知識。

(2) 主題發展趨勢分析。一個任務過程随着事件時間發展可以分為若幹個任務事件主題。如圖 5中在4月21日05時00分至17時00分,共包括“隐蔽集結”“道路機動”“阻擊防禦”等3個任務事件主題。分别統計每個主題在此期間所對應的比例,發現9時之前以“隐蔽集結”主題為主,任務關注重點是如何利用從空中和地面免受觀察的地形要素,如植被與隐蔽配置,完成集結任務;9時至13時以“道路機動”主題為主,任務關注重點是根據通路分析計算通道容量,分析利于武器裝備通過的機動走廊相關地形要素,完成機動任務;13時之後以“阻擊防禦”主題為主,任務關注重點是利用對特定武器部署位置有影響的、且具有防禦能力的地形要素,建構直瞄和間瞄武器射擊區域,避免受敵火力威脅區域地理環境,達成阻擊任務。結合時間資訊,對應時空主題分布分别從“隐藏配置”主題,“接近路”主題發展為“觀察與射界”主題,将整個任務過程分為3個階段,分别對應任務事件的初期、發展期和結束期。是以,一個任務過程中包含不同的事件主題,能夠反映不同階段任務關注的重點,由時空主題關聯反映出區域地理環境變化特征,有助于進一步從不同角度預測任務發展程序。

以上對時空主題趨勢分析可以看出,随着戰場位置與任務事件進展發生變化,地理環境時空主題也随之發生改變。通過分析這些變化可以發現任務事件主題與時空主題之間的關系及發展趨勢,有助于發現事件的發展規律并研判地理環境對任務執行的影響效能,利用不同的時空主題作出趨利避害的對策。

3.3.2 不同主題下時空分布特征

由于戰場文本資料中包含了豐富的位置資訊,将每個任務事件主題與位置資訊相關聯,形成帶有主題屬性的點狀地理實體,對其在一定空間區域内進行聚類分析,産生不同主題下的時空分布規律,進而為新事件的位置預測提供基礎。

選取上述任務過程所包含最主要的3個事件主題“集結”“機動”“防禦”進行空間聚類分析,分别包含了115條、370條、406條位置資訊文本。采用OPTICS聚類方法對上述主題關聯的位置資訊進行分析,得到的聚類核心(十字表示)如圖 6所示。

測繪學報 | 朱傑:基于主題模型的地理環境時空資料隐含語義了解

圖 6 相關主題的空間聚類 Fig. 6 Spatial clustering of related topics

“集結”主題空間分布得到的聚類核心主要分布在區域A,與其相對應地理主題可以發現,該區域以“植被與隐藏配置”時空主題分布為主,與“植被”“居民地”等空間實體關聯較強,結合任務過程事件時間分布,與“早期”階段任務主體行為為達成隐蔽集結意圖是一緻的;“機動”主題空間分布得到的聚類核心主要分布在區域B,與其相對應地理主題可以發現,該區域以“接近路”時空主題分布為主,與“道路”“居民地”等空間實體關聯較強,結合任務過程事件時間分布,與“發展期”階段任務主體行為為達成沿道路機動意圖是一緻的;“防禦”主題空間分布得到的聚類核心主要分布在區域C,與其相對應地理主題可以發現,該區域以“觀察與射界配置”時空主題分布為主,與“高地”“植被”等空間實體關聯較強,結合任務過程事件時間分布,與“結束期”階段任務主體行為為達成阻擊防禦意圖是一緻的。

從上述對不同主題下的空間資料聚類分析,能夠發現時空主題的空間分布特征受到事件主題的影響,并對事件的發展産生新的作用。當新事件發生的時候,通過主題分類結合空間分析,預測事件可能影響的位置區域,進而有效作出趨利避害的對策。

4 結語

戰場文本資訊不僅直接反映戰場行為過程,還蘊含着豐富的區域地理時空語義資訊,與地理環境變化密切相關,并揭示了未來時空過程發展趨勢。本文以與任務事件相關的戰場文本資料為資訊源,研究基于句法分析的主題要素抽取及事件主題分類方法,并通過主題模型分析地理時空主題與事件主題之間的隐含語義分布形态,揭示區域地理時空主題與任務事件主題之間存在的相關性特征及在時序上的發展趨勢,反映了不同僚件主題影響下的時空分布規律。由于本文選擇的資料源較為單一,盡管一定程度上能夠反映客觀趨勢,但是文本資料樣本數量上的不足使得主題隐含語義研究存在一定偏差。未來将結合不同類型戰場文本資料,進一步深入挖掘多源文本資料中的語義資訊,提高主題分類精度;同時,需要考慮不同尺度時空區域與不同等級任務對結果可能造成的影響,此外,還需考慮算法運作的效率對分類結果與精度的影響。

作者簡介

第一作者簡介:朱傑(1983-), 男, 博士, 工程師, 研究方向為戰場環境認知及戰場位置服務的理論和方法。E-mail: [email protected]

初審:張豔玲

複審:宋啟凡

終審:金 君

往期推薦

資訊

○ 中國科學院空天資訊創新研究院城市環境遙感團隊崗位聘用職工招聘

○ 中國工程院院士郭仁忠:城市如何數字化?既要有好“路”還要有好“車”

○ 中國科學家首獲地球觀測組織卓越個人獎

○ 關于誠邀參加中國測繪科學研究院2021年測繪科技成果推介會的函

○ 北京市測繪設計研究院2022年應屆畢業生公開招聘

○ PPT | 李春來 :基于高光譜紅外成像的氣體探測方法、現狀與展望

○ 中國測繪 | 籌建北京冬奧賽道的測繪⼈

會議

○ 第一屆中國生态系統遙感學術研讨會(三号通知)

○ 《測繪學報》2021年編委會會議在青島召開

○ 會議通知 | 2021中國地理資訊科學理論與方法學術年會通知(第二号)

○ 關于第八屆“測繪科學前沿技術論壇”再次延期召開的通知

《測繪學報》

○《測繪學報》2021年第10期目錄

○ 測繪學報 | 樊仲藜:SAR影像和光學影像梯度方向權重的快速比對方法

○ 測繪學報 | 左溪冰 : 高光譜影像小樣本分類的圖卷積網絡方法

○ 測繪學報 | 成飛飛 : 結合自适應PCNN的非下采樣剪切波遙感影像融合

《測繪通報》

○ 室内高精度三維測圖新技術

○ 面向上海城市數字化轉型的新型測繪

○ 圖像全站儀及圖像測量發展與展望

○《測繪通報》2021年第10期目錄

《北京測繪》

○《北京測繪》2021年第9期摘要推薦

○《北京測繪》2021年第8期摘要推薦(下)

○《北京測繪》2021年第8期摘要推薦(上)

○《北京測繪》2021年第7期摘要推薦(下)

《測繪科學技術學報》

○ 《測繪科學技術學報》2021年第1期重點論文推薦

○ 摘要 |《測繪科學技術學報》2021年第3期摘要推薦

○ 摘要 |《測繪科學技術學報》2021年第2期摘要推薦

○ 摘要 |《測繪科學技術學報》2021年第4期摘要推薦

○ 摘要 |《測繪科學技術學報》2021年第5期摘要推薦

《地球資訊科學學報》

○ 《地球資訊科學學報》2021年第10期佳文推介

○ 《地球資訊科學學報》2021年第9期佳文推介

○ 《地球資訊科學學報》2021年第8期佳文推介

○ 專刊征稿:社會感覺與地理大資料挖掘(征稿中)

《測繪工程》

○ 摘要 |《測繪工程》2021年第5期摘要推薦

○ 摘要 |《測繪工程》2021年第4期摘要推薦

○ 摘要 |《測繪工程》2021年第3期摘要推薦

○ 測繪教學 | 後疫情時代“線上+線下”混合教學模式創新——以測繪類課程視角

《中國空間科學技術》

○ 摘要 |《中國空間科學技術》2021年第4期摘要推薦

○ 摘要 |《中國空間科學技術》2021年第3期摘要推薦

○ 多傳感器組合導航系統的改進多尺度濾波算法

○ 火衛二地形地貌探測綜述

《衛星應用》

○ 綜述 | 北鬥系統應用趨勢分析

《Journal of Geodesy and Geoinformation Science》

○ 專刊征稿 | Call for Papers:空間人文與社會地理計算 (SHGSS)

○ Special Issue on New LiDAR Technologies and Techniques

○ 《測繪學報(英文版)》(JGGS)LiDAR專刊釋出

○ 論文推薦(四)| Speical Issue on New LiDAR Technologies and Techniques

○ 論文推薦(五)| Speical Issue on New LiDAR Technologies and Techniques

《Satellite Navigation》

○ [綜述]| 高揚教授:GNSS智能手機定位:進展、挑戰、機遇和未來展望| SANA佳文速遞

○ 熊超教授:地磁暴期間夜間低緯電離層和赤道等離子體不規則體| SANA佳文速遞

○ 徐元博士:面向有色測量噪聲下UWB/INS組合行人導航的分布式卡爾曼濾波| SANA佳文速遞

○ 楊飛博士:GNSS天頂對流層精化模型的建構與分析| SANA佳文速遞

○ 牛小骥教授:用半解析法分析GNSS/INS在鐵路軌道測量中的相對精度| SANA佳文速遞

《自然資源遙感》

○ 《自然資源遙感》入駐“智繪科服”融媒體平台!

繼續閱讀