天天看點

意圖搜尋及其在安防領域的應用

意圖搜尋最早起源于網際網路行業,通過對傳統搜尋引擎的智能化應用擴充,基于分類算法對意圖分析和分析擴充等功能進行應用,逐漸由搜尋引擎學會判斷使用者的真實搜尋意圖,實作智能搜尋引擎。随着全球安全形勢日趨惡化,意圖搜尋逐漸與物聯網結合并落地,中國工程院吳曼青院士提出了反恐環境下基于大資料的意圖搜尋的設想充分表明了安防行業已經把意圖搜尋概念提升到了主流産品形态,充分做好了與意圖搜尋技術結合的準備工作。

一、意圖搜尋起源

意圖搜尋最早起源于網際網路行業搜尋引擎工具,随着網際網路資訊量的不斷增加,能夠快速、準确地查找資訊越來越困難,主要原因是搜尋引擎不能了解使用者的真實查詢意圖,因而機器學習如遺傳算法、bp神經網絡法等在這方面的應用研究快速地被引起關注。lam wai 就利用基于事例的機器學習和查詢回報技術實作了文本的自動分類并用于文字檢索, 實驗證明了其優越性。mandala rila 采用權重方法從多類資訊中實作查詢擴充 , 以及chakrabarti 探讨的基于矩陣代數的主題提取算法、組合詞彙和索引文本等特征提取都是這方面的努力。但目前最有前景的是doug lenat 研制的搜尋系統, 通過建立常識庫和推理機來與使用者交談, 進而實作對使用者真正意圖的了解。知識工程之父feigenbaum稱贊他開創了查詢的“語義時代”(theage of semantics)。但前提是要建立一個龐大的百科全書常識庫, 這是非常困難的, 而且也不分析使用者的潛在意圖。構造龐大知識庫的一種方法是從網絡上自動構造, craven 和lesser 提出了資訊擷取的系統原理, 知識庫的結構和實作方法。choi 則實作了一種具體的自動構造系統,其可從網上發現文本并歸入本地資料庫供查詢, 它相當于智能代理。alsaffa 做了類似的探索, 利用專家系統在使用者喜歡的表達和系統要求的表達之間實作自動轉換。意圖搜尋正在基于這些技術之上實作了智能化的自動搜尋。雖然意圖搜尋起源于網際網路行業,但是目前已經被廣泛用于其它行業,例如在安防行業與物聯網技術緊密結合。

二、意圖搜尋在網際網路行業的發展

網際網路行業最早由搜尋引擎起步,目前資料也都是通過搜尋引擎實作資料交換和傳遞過程。使用者之是以會産生搜尋行為,往往是在解決任務時遇到自己不熟悉的概念或者問題,由此産生了對特定資訊的需求,之後使用者會在頭腦中逐漸形成秒速需求的查詢詞,将查詢送出給搜尋引擎,然後對搜尋結果進行浏覽,如果發現搜尋結果不能完全解決使用者的資訊需求,則會根據搜尋結果的啟發,改寫查詢,以便更精确地描述自己的資訊需求,之後重新構造新的查詢需求,送出搜尋引擎,如此形成使用者和搜素引擎互動的閉合回路,直到搜尋結果已經解決了自己的需求或嘗試幾次無果而終。從上述過程可以看出,從使用者産生資訊需求到最終形成使用者查詢,中間有很大的不确定性,使用者未必能夠一開始就找到合适的查詢詞,即使是找到了,也可能存在查詢詞不能完全描述資訊需求的情形,即在形成查詢的過程中存在資訊丢失的問題。是以後續循環中的查詢改寫就是使用者逐漸澄清搜尋需求的一個過程。

使用者發出的每個搜尋請求背後都隐含着潛在的搜尋意圖,如果搜尋引擎能夠根據查詢詞彙自動找出背後的使用者搜尋意圖,然後針對不同的意圖,提供不同的檢索方法,将更符合使用者意圖的搜尋結果排在前列,無疑會增加搜尋引擎使用者的搜尋體驗。目前搜尋引擎已經部分實作了這種搜尋模式,比如使用者搜尋“北京 天氣”的時候會主動将當天的氣溫等情況列在搜尋結果最前面。

意圖搜尋是基于目前internet上資訊的無組織、異構、分布和動态的特點以及現有搜尋的不足而提出的,用于解決現有資訊檢索系統所面臨的“資訊過載”、“資源迷向”和搜尋結果個性化需求等實際問題,實作internet資訊個性化主動服務。搜尋引擎在強化“智能化”方向的理念之上,在自動分類、自動聚類的基礎上推出智能導航、概念搜尋、個性化搜尋功能,使搜尋引擎充分領會使用者意圖的進行搜尋,這是意圖搜尋在搜尋引擎方面的落地應用模式。

目前大多數搜尋引擎是通過使用者注冊及使用者個性化配置(利用cookie機制、為使用者建立配置檔案等)來提高對使用者搜尋請求的精度和命中率,實作一定程度上的個性化搜尋服務。這種方式需要使用者在伺服器上登記個人資訊,但這可能造成使用者某些隐私資訊的洩露。目前比較公認的搜尋引擎意圖搜尋方法是采用特征擷取方法。特征擷取方法分為兩類,第一類方式可以稱為事先方法,這種方法在查詢被送出給搜尋引擎以前,利用查詢本身的特征來表示查詢,比如表示特定需求的特征詞彙、詞與詞之間關系、詞的詞性以及詞的選擇優先性、在語料集中的統計資訊等等;第二類方法可以稱為事後方法,這種方法利用查詢被送出給搜尋引擎以後的相關資料來擷取查詢的特征。

意圖搜尋分為意圖分析和分析擴充兩個部分。意圖分析是解決“資訊過載”和“資源迷向”問題的有效途徑,通過對使用者所需的資訊資源進行搜集、加工、整理,可以梳理和有序化網絡上的專業資訊資源,向使用者提供智能化的資訊服務。意圖分析和分析擴充的具體步驟如下所述:

(1)意圖分析。①根據使用者對問題的回答,檢索知識庫中的相關資訊,以提供直接的回答。②對輸入的原始查詢根據其概念内容進行組織和安排,以析取相關的概念資訊和範疇知識。然後,通過語義聯想等意圖推理修改查詢向量。③将查詢向量交由使用者互動确認、編輯。④根據使用者的編輯結果可以再次意圖推理,直到使用者滿意為止。⑤将此次意圖推理的結果記入知識庫中,以備以後的意圖推理。

(2)分析擴充。根據意圖分析的結果,更新原始查詢向量,形成新的查詢向量。方法是将應用領域知識和索引、相關性、估計和查詢表達相結合來實作查詢擴充,即查詢索引還包括不在使用者查詢中出現的查詢詞部分。查詢擴充所需要的查詢詞的選擇政策有:①非獨立類。非獨立詞指的是和查詢詞具有較大相關性的詞。查詢擴充通過知識庫推理從知識庫中找出相關性詞、短語、句子、段/篇章。②互動式選擇。使用者從通過上述政策得出的待選詞中決定最後的查詢詞。

三、意圖搜尋與安防行業的結合

2014年發生的震驚全球的“馬航失聯”事件牽動了無數中國人的心,泛太平洋各國均提供了大量幫助用于搜尋失聯航班,但是由于搜尋方式千奇萬種、資訊達到海量級别、資訊來源不連續性等多種問題,導緻搜尋遲遲沒有結果。仔細分析搜尋方式,可以發覺這類型的搜尋形式其實與網際網路行業的搜尋引擎意圖搜尋有相似之處,相似點在于都需要對資料進行收集、甄别、過濾、分類、整合,都不是一個單一的行動,而是一整套連貫的過程。

物聯網行業本身由于傳感器的多種多樣導緻資料形式多樣性、資訊海量性等特征,如果大資料環境下還是采用過去的全文檢索方式進行單一化搜尋,未來一定無法滿足使用者的智能化需求。針對這一挑戰,2014中國大資料峰會上中國工程院吳曼青院士發表了名為“存在就有痕迹,聯系就有資訊,反恐環境下大資料的意圖搜尋”的專題演講,吳院士以衆多美國案例為引,描述了新時代反恐行動應用的特性:法律保障、以人為核心、高技術手段、國際合作,通過建構虛拟空間資訊社會雷達的方式将意圖搜尋引用到反恐活動中,提升反恐能力。

基于“存在就有痕迹,聯系就有資訊”的基本理念,建構網絡空間中行為事件、思想事件等模型,在實體空間和虛拟空間中全面收集人的存在痕迹和聯系資訊,關注人物或事件間聯系鍊,進而實作網絡空間中存在的各種意圖,完成對意圖産生源頭、傳播途徑和發展趨勢的全方位描述,達到對個人群組織的所思所想行為所在的全面搜尋和分析。物聯網行業擁有海量的視訊、音頻、圖檔資料,通過相應智能算法可以從中提取出可供分類的結構化資訊,通過這些結構化資訊與意圖搜尋技術相結合可以幫助使用者快速預判事物、事件發生機率和趨勢。

因國内反恐形勢嚴峻,大資料搜尋需要積極應對新時期恐怖主義威脅,立足恐怖主義存在和意圖特征,運用大資料技術進行深入關聯分析,實作對恐怖分子的準确識别和暴恐事件的提前預警,有力提升反恐維穩核心能力。海康威視作為安防行業的龍頭,物聯網概念提出之處就已經開始涉及其中,相信在不遠的将來,意圖搜尋應用可能就在海康威視率先落地。

四、結語

本文首先針對意圖搜尋的來源、基本概念作了一些解釋,随後針對産生意圖搜尋概念的網際網路行業具體發展過程、應用模式及技術等做了一些讨論,最後對安防行業與意圖搜尋技術相結合的具體形式進行了探讨,通過馬航失聯事件的預測性分析告訴讀者意圖搜尋如何在安防、反恐等領域發揮自己的作用,如何與物聯網緊密結合。

本文轉自d1net(轉載)

繼續閱讀