本節書摘來自華章出版社《移動資料挖掘》一 書中的第1章,第1.3節,作者連德富 張富峥 王英子 袁晶 謝幸,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
移動資料的形式多種多樣,有來自移動社交網絡中的簽到資料、與基站通信時的日志資料,還有公交交通工具的刷卡資料、美鈔的交易資料,等等,它們的特點也各有不同,具體表現在采樣頻率、資料采集方式、定位精度等。不過針對這些資料的挖掘所面臨的挑戰是類似的。
● 可擴充性 移動資料的規模巨大,不僅源于使用者群的規模,而且源于資料的産生速率。如此大規模的移動資料要求移動資料的挖掘算法需要具有較高的可擴充性。這種可擴充性應該盡可能地利用移動資料的諸如本地化、空間聚集等特性(将在第2章介紹)。
● 稀疏性 盡管移動資料規模巨大,但是每個人所擁有的非備援資訊非常有限,因而面臨稀疏性的挑戰。若以移動社交網絡foursquare中的簽到資料為例,根據統計[61,29],使用者平均每天隻分享2~5個位置通路記錄。因而要從如此稀疏的資料中去學習人們的日常生活模式和興趣偏好就變得異常困難。在基站定位資料中,根據宋超明(音譯)等人的分析[113],我們發現人們探索新地點的速率是随着時間增長而迅速減小的。即當人們熟悉了他們的周遭環境之後,便很少會繼續探索新地點。因而,即使人們時刻分享其位置通路記錄,這些分享的記錄也都是備援的。備援的資訊雖然可以幫助了解人們的日常生活規律,但是要從中深入了解人們的興趣偏好也是一件挑戰性很高的事情。
● 群體智慧 在移動社交網絡中,人們趨于分享他們的感受和關注。通過評論、排名等方式可以很容易地擷取群體的智慧。與使用者互動在一起的各類元資訊對于移動資料挖掘的很多任務是有巨大價值的。另外,人們通過對地點的通路而互相關聯在一起,那麼應該如何利用這些關聯性來緩解稀疏性進而幫助了解人們的興趣偏好呢?
● 異質性 移動資料挖掘的任務通常需要多個資料源共同支援。比如城市交通中事故的檢測可能需要同時分析計程車的軌迹和監控的視訊。興趣地點的發現可能需要借助人們諸如年齡、性别、教育情況、任職情況等的基本資訊,還可能需要社交網絡上的社交關系,興趣地點的實體位置資訊、評論和攻略等文本内容,分享的圖檔資訊,等等。城市功能區域的發現需要區域出入資訊、周遭興趣點資訊,等等。是以,移動資料的挖掘需要設計諸如多視圖、多核學習或共同矩陣分解等相關算法來處理這些多源異構的資料。