天天看點

《移動資料挖掘》—— 第1章 引言 1.1 移動資料及其價值

本節書摘來自華章出版社《移動資料挖掘》一 書中的第1章,第1.1節,作者潘曉、霍 峥、孟小峰,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

第1章 引言移動資料挖掘研究的是基于移動資料的資料挖掘算法。這些資料挖掘算法需要更多地利用移動資料的特性,挖掘與這些特性有關系的模式。比如,研究發現,移動資料通常具有空間的聚集效應,即人們總是在少數的幾個地點(家、工作場所等)附近活動,因而如何在資料挖掘的過程中考慮這一特性,便是移動資料挖掘需要重點考慮的一個問題。那麼,移動資料具體是什麼、有哪些特性、移動資料挖掘有什麼任務、将要面對哪些挑戰呢?

移動資料是移動軌迹的集合,而移動軌迹可以簡單地認為是移動記錄的有序序列,既可以是人的移動資料,也可以是任何其他動物的移動資料。本書關注的是人類的移動曆史。人類的移動曆史具有更多的不确定性,他們并非總是願意保持固定不變的生活規律,因而人類的移動資料中具有更加豐富的移動模式。人們可以通過攜帶gps裝置直接收集移動資料,也可以将諸如計程車、公共汽車、飛機、火車等移動對象作為載體來間接收集他們的移動資料。這種移動資料收集的普适性得力于移動通信和傳感裝置等位置感覺技術的發展和智能移動裝置的普及,使得移動對象無論身處室内還是室外都可以更加容易地擷取他們自身的地理位置資訊。目前最先進的定位系統不僅依賴于全球衛星定位系統的高精度定位,還依賴于wi-fi和基站的較為粗略但範圍更廣的定位。出于業務本身或未來業務擴充及研究的需要,移動對象的很多定位資料都會被保留下來。由于與業務的強相關性,使用者群的大小及位置的采樣頻率也決定了這些存留的位置資料不僅數量巨大,而且資料産生的速率很高。比如,營運商出于高效通信的需求會記錄每個移動使用者的服務位置,由于使用者的規模巨大,是以每天産生的位置資料量也是非常巨大的。據我國三大營運商的營運資料顯示,截至2015年12月,中國電信、中國移動和中國聯通的使用者數分别高達1.979億戶、8.26億戶和2.866億戶。假如每人每天平均通信一次,那麼每天就會有約13億條的位置資料。‖移動資料挖掘第1章 引言‖然而,正如基站定位資料是存儲在營運商手中的一樣,位置資料一般不會儲存在移動對象的手中,外加資料量巨大,使得移動資料的開放受到了很大的限制。不過,随着移動網際網路和線上社交網絡的發展,諸如街旁網、foursquare、facebook place等位置社交網絡應運而生。在位置社交網絡中,人們可以便捷地跟蹤和分享諸如他們在什麼地方和什麼時候做了什麼事情的簽到(check-in)記錄等位置通路資訊。同樣,源于與線上社交網絡的結合,位置社交網絡中的使用者群也是巨大的,使得使用者的移動資料也得到了大量的積累。根據街旁網的官方資料,從2010年5月上線到2013年7月,街旁使用者數已經突破了500萬,累計簽到次數超過8000萬次。根據foursquare的統計資料,從2009年3月上線到2013年12月,使用者數已經達到了4500萬,累計簽到數高達50億。這些大規模移動資料的積累,為基于位置的智能服務提供了重要的基礎條件。目前,這些基于位置的智能服務開辟了一個正在快速增長的市場。一份來自marketsandmarkets的研究報告預計,諸如導航、移動廣告、移動社交網絡等基于位置的智能服務的市場佔有率将從2016年的113億美元增長到2020年的549億美元。下面我們列舉一些基于位置的智能服務的重要案例。①通過分析大量的曆史活動軌迹資料或出行資料,為人們的日常出行和旅遊給出合适的路線和興趣點的推薦[62,140,155,157]。②基于位置社交網絡資料,挖掘本地人和外地人涉獵區域上的差異性,進而幫助人們學習到本地化的相關知識,比如利用北京本地人的生活經驗,給來北京旅遊的外地人推薦成本效益較高的餐館和酒店[138]。③東京大學聯合微軟亞洲研究院利用一百多萬人三年的gps軌迹、日本的自然災害資料及災害的官方和新聞媒體報道,來分析模組化災後人們的移動行為規律,進而生成并模拟災害發生後的最優移動線路[116]。④如airsage公司一般每天通過處理來自上百萬手機使用者的150億條位置資訊,為美國的100多個城市提供實時交通資訊[112]。⑤微軟研究人員提出的t-drive系統[143]可分析33000輛北京計程車的gps軌迹,來幫助出行人員得出更優的駕車路線。測試證明,推薦的駕車路線和bing maps或google maps内置的路線搜尋相比,有60%的路線更優,可節省16%的時間。⑥類似地,他們還設計了t-finder系統[146],不僅可以為計程車司機推薦具有高密度客源的鄰近區域,進而減少了計程車司機的空載時間,還可以為乘客推薦有更高上車機率的鄰近上車地點,進而減少了乘客的等待時間。⑦無線資料科技公司(jana)使用來自100多個國家的、超過200個通信營運商提供的、覆寫了大約35億人口的基站連接配接資料,将其轉換為使用者移動軌迹之後,來研究疾病傳播、城市發展、人類遷移等具有重大意義和價值的科學問題[40]。⑧傳統的車險業一般是通過評估群體的平均風險來為車險定價,但是當保險公司分析了車輛出行時間、常見行駛地點和實際行駛過程等移動資料之後,便可以轉變為對每個客戶的個性化風險評估和車險定價,進而改變了車險業的營運方式[67]。⑨聯合包裹運輸公司(ups公司)收集運輸車輛的行駛軌迹資訊,并為它們提供最佳行車路線,進而減少燃油消耗、降低故障成本,在商業模式上取得了巨大的成功。據統計,僅2011年,ups公司旗下的車輛行駛路程就縮短了4828萬公裡,間接減少了1136萬升的燃料和3萬噸二氧化碳的排放[160]。從最後的兩個案例可以看到,移動資料的挖掘與分析甚至可以改變公司業務的運作方式,暗含了巨大的商業價值。

繼續閱讀