天天看點

《中國人工智能學會通訊》——11.57 基于擴充資訊的移動App分類方法

移動 App 在移動使用者的日常生活中扮演着十分重要的角色,通過研究其使用記錄可以幫助深入了解使用者的興趣偏好,并且能夠促成許多潛在的智能應用服務,例如移動 App 推薦、移動使用者定向廣告、移動使用者市場分析等。

然而,我們在實踐中發現,直接來自于移動App 的資訊通常非常有限并且語義模糊。例如一個用于分析使用者偏好的模型很難清晰地了解 App 使用記錄:“使用者正在玩 Angry Birds”,除非相應的App 能夠被識别為一個預先設定好的語義類别:“動作遊戲”。事實上,由于移動 App 巨大的數量,以及快速的增長速度,我們十分迫切地需要一種自動化的有效方法來實作移動 App 的語義分類。盡管如此,一種可能的實作方法是直接利用移動 App 分發平台(例如 Apple Appstore 等)自帶的分類體系作為原子資料(Metadata),并用其對移動 App 進行自動化識别。但是,這些原始的分類資料通常不夠精确,很難準确地描述使用者在使用這些 App 時的潛在語義,因而無法幫助我們精确地了解使用者。

事實上,移動 App 分類不是一個簡單的工作,一直尚未被深入研究。在實踐中,一個最主要的挑戰來自于缺乏充分的顯式分類特征進行分類模型訓練,這是因為移動 App 本身所具有的上下文資訊非常有限。具體來說,給定一個移動 App,其唯一可用的顯式分類特征就是其名稱中包含的單詞。然而,通過分析發現這些單詞通常非常少且非常稀疏。

基于上面的挑戰,我們提出一種基于擴充資訊的移動 App 分類方法,能夠同時利用來自于 Web和情境日志的輔助資訊擴充移動 App 本身缺乏的分類特征。根據近年來一些最新的短文本分類研究成果[10-11] ,一個用于擴充原始稀疏文本特征的有效方法是利用來自于 Web 的語義知識。受此啟發,我們提出使用 Web 搜尋引擎來擷取某個給定移動 App的搜尋摘要(Search Snippet),并以此作為輔助資訊擴充移動 App 的文本分類特征。但是,對于一些不流行或者剛開發的新 App,有時通過搜尋引擎無法擷取足夠的 Web 描述資訊建構分類特征。在這種情況下,我們提出利用另一種有效的資訊,即來自于真實世界的情境資訊去建構 App 的分類特征。根據近年來一些關于情境感覺的研究成果[9] ,使用者對于移動 App 的使用通常是情境感覺的。例如,和商業相關的 App 通常會在工作的情境下被使用,而一個遊戲App則很有可能在休閑娛樂的情境下被使用。相比于來自于 Web 的輔助資訊,這些來自于真實世界的情境資訊能夠很好地幫助分析那些新開發的或者不流行的移動 App,因為這些 App 的使用記錄可以從之前所提到的使用者情境日志中獲得。是以,我們提出使用真實世界的情境資訊來擴充移動 App 的分類特征,并訓練相應的分類器。圖 2 展示了所提分類算法的具體架構。

《中國人工智能學會通訊》——11.57 基于擴充資訊的移動App分類方法

繼續閱讀