本章专注于如何直接获取并处理由web得到的数据集,包括文件下载、xml和json格式数据的处理、html表的分析、使用xpath函数将数据从html页面中抽取出来以及如何与restful api进行交互。
尽管基于socrata api实现的一些样例可以很简单地借助rsocrata包实现,但是我们不能忘记总有些时候我们可能找不到一个现成的r包来完成某些功能。因此,作为一个数据黑客,我们必须要了解掌握对json、html和xml数据源的处理方法。
在下一章中,我们将探讨如何使用最好、最常用的方法对已经获取并装载的数据进行筛选和聚合操作,来实现数据的变形和重构。