天天看點

《移動資料挖掘》—— 1.4 本書簡介

本節書摘來自華章出版社《移動資料挖掘》一 書中的第1章,第1.4節,作者連德富 張富峥 王英子 袁晶 謝幸,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

在這些挑戰之下,本書将主要以人的軌迹資料,特别是移動社交網絡的位置資料為中心,結合人的基本資訊及社交網絡等相關資訊來研究個人與群體的移動模式特性,具體包括使用者移動模組化、基于移動資料的使用者畫像及個性化興趣地點推薦等。

● 在介紹移動資料的挖掘内容之前,我們先會介紹移動資料的預處理方法。資料預處理通常是資料挖掘的第一步,也是非常重要的一步,它可能會影響到後續挖掘算法在移動資料中的準确性或可用性。在移動資料預處理的章節(第2章)中,我們會介紹缺失資料的補全和噪聲資料的清除,這些主要針對使用者室内定位資料的丢失或漂移問題,以及由于業務本身造成的資料缺失問題等等。那些連續收集的gps軌迹資料通常存在大量備援,因而需要利用聚類算法進行重要位置或事件的檢測,比如路徑軌迹中停留時間較長的地點。但是這些被提取出來的重要位置一般沒有語義資訊,如何基于有監督學習的算法利用諸如興趣點、可開展活動的資訊對這些重要位置進行标記或命名,也是預處理部分需要介紹的内容。

● 對人類移動模式的了解是自然科學的重要内容,它對于交通規劃、疾病傳播、城市規劃等具有重要的作用。人類移動模式的了解主要在于了解人類移動背後的規律,并在此基礎上對人類的移動進行模組化,進而預測人類的未來移動。第3章将從人類動力學角度和資料挖掘兩個角度來闡述對人類移動模式的了解。人類動力學角度是将每個個體當作實體學中的粒子,基于粒子的實體移動模型(比如連續的随機遊走模型)來模組化研究人類的移動行為,具有很強的實體學意義和解釋性。而基于資料挖掘的移動模型則是從資料出發,利用如馬爾可夫模型或時間規律性模型來分析使用者的移動特性。此外,該章還會介紹移動模式中的時空聚類特性,以及如何度量社交網絡對于移動行為特性的影響。然而,根據宋超明等人[114]的分析,在資料較為完整的基站軌迹資料中,使用者行為的可預測性雖然高達93%,但是仍然存在7%的不規律行為(文中稱為地點探索行為)。為此,該章也會闡述對這類移動行為的分析和預測,同時介紹統一的算法架構來同時預測規律性行為和探索行為。

● 不同使用者的移動模型均會有所差别,但也存在很多共性。這種共性可能是他們共同的屬性或特質決定的,使得從使用者的移動模型去推導使用者的基本屬性或特質成為可能。是以,在第4章中,将介紹基于移動資料的使用者畫像,利用分類算法或回歸算法對使用者的顯性屬性和隐性屬性進行預測。其中的顯性屬性是指年齡、性别、教育背景等基本資訊,而隐性屬性則是指一些心理特性,比如消費沖動心理、新穎性探索特性,等等。對這類問題的研究使得提出準确率更高的預測算法成為可能。另外,不管是隐性屬性還是顯性屬性,出于隐私的考慮,人們都不會輕易地将其分享出來,因而使用者畫像可以為精準的移動廣告和精準營銷提供重要的依據。也就是說,系統可以根據移動行為的特性來投放相應的廣告。

● 針對移動資料的挖掘,我們不僅可以刻畫人們的時空規律性,而且還可以學習人們的興趣偏好,進而推薦适合他們的未通路過的興趣地點。這種興趣的挖掘一般是通過聚類等降維技術或協同過濾等學習方法來實作的。在第5章中,首先會根據興趣地點推薦問題重點介紹協同過濾方法在移動資料上的應用研究。由于地點是内嵌在地理空間中的,人們對地點的通路存在空間聚集效應,即符合地理學第一定律——“任何事物都相關,隻是相近的事物關聯得更緊密”,我們将重點考慮地理影響力的模組化。如果将地點的實體位置作為地點内容資訊,地理模組化就是一種基于内容的推薦方法。除了地理資訊以外,被推薦的地點通常還有其他很多的諸如評論等的文本資訊,那麼如何針對這些文本資訊進行基于内容的推薦?最後,将介紹統一的興趣地點的推薦模型,來同時考慮這些重要的要素。主要包括介紹如何基于這些使用者屬性和地點的内容屬性實作在移動資料不完整的情況下(冷啟動)的推薦問題,這一點與第4章從移動模型預測使用者屬性的出發點剛好相反。另外,地點的推薦應該是在一定的情境,比如說特定時間之下完成的,是以情境感覺的地點推薦方法也是該章的重要内容之一。

繼續閱讀