本章專注于如何直接擷取并處理由web得到的資料集,包括檔案下載下傳、xml和json格式資料的處理、html表的分析、使用xpath函數将資料從html頁面中抽取出來以及如何與restful api進行互動。
盡管基于socrata api實作的一些樣例可以很簡單地借助rsocrata包實作,但是我們不能忘記總有些時候我們可能找不到一個現成的r包來完成某些功能。是以,作為一個資料黑客,我們必須要了解掌握對json、html和xml資料源的處理方法。
在下一章中,我們将探讨如何使用最好、最常用的方法對已經擷取并裝載的資料進行篩選和聚合操作,來實作資料的變形和重構。