本節書摘來自華章計算機《資料科學r語言實踐:面向計算推理與問題求解的案例研究法》一書中的第1章,第1.1節,作者:[美] 德博拉·諾蘭(deborah nolan) 鄧肯·坦普·朗(duncan temple lang) 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
無線網絡的發展激發了人們在利用統計學方法來可靠地追蹤人和物品方面的商業興趣與研究興趣,無論這些人和物品是處于商店、醫院、倉庫還是工廠等場所的内部。全球定位系統(gps)在建築物内不能可靠地工作,但随着無線區域網路(lan)的盛行,室内定位系統(ips)可擔此重任。它利用從網絡接入點檢測到的wifi信号,可以回答如下問題:醫院裡的某件裝置在哪裡?我在何處?我的鄰居是誰?等等。理想情況下,通過很少量的訓練、校準和裝置,就可以幾乎實時地準确回答上述這些問題。
要想建立一個室内定位系統,首先要求有一個參照資料集,它包含在整個建築物的給定位置上,一部諸如手機或筆記本電腦這類的手持裝置與路由器這類固定接入點之間的信号強度的測量值。利用這些測量值作為訓練資料,就可以建立一個關于裝置位置的預測模型,即裝置與每個接入點之間信号強度的函數。這樣,根據從一個新裝置檢測到的信号值,就可以用該模型預測這個新裝置的位置。在本章,我們将檢測大約100萬個信号強度測量值,并開發一個統計型ips。這些資料是從德國曼海姆大學的一座大樓裡的6個固定wifi接入點(路由器)上記錄的。
這個過程的第一步是了解如何采集資料并對其格式化。為此,在1.2節,我們先閱讀由記錄這些資料的研究者所提供的文檔,并對其特性進行調研。當我們對這些資料有了認識之後,将其組織成适合于分析的結構。然後,1.3節介紹如何清洗資料。在模組化之前,我們需要更深入地檢閱信号強度資料,以更好地了解其統計特性(1.4節)。最後,在1.5節,我們通過執行最近鄰方法進行位置預測,并在曼海姆大學研究者提供的第二個資料集上對該方法進行測試。
計算方面的主題
本章涉及的計算方面的主題如下:
字元串操作。
資料的結構和表示,包括可變長度的觀測值。
對參差數組中的資料進行聚合計算。
探索性資料分析和可視化。
模态函數。
程式調試。
最近鄰方法。
參數選擇的交叉驗證。