天天看点

《数据驱动的网络分析》——第6章 R安全分析简介

本节书摘来自异步社区《数据驱动的网络分析》一书中的第6章,第6.1节,作者: 【美】michael collins 更多章节内容可以访问云栖社区“异步社区”公众号查看。

r是一个开源统计分析软件包,最初由奥克兰大学的ross ihaka和robert gentleman开发。r的设计者主要是统计学家和数据分析人员,与商业统计软件包(如s和spss)关联。r是用于探索性数据分析的工具包,它提供了统计建模和数据操纵能力、可视化和一个全功能的编程语言。

r可以满足多种分析需求。分析工作需要某些工具来创建和操纵汇总原始数据的小型临时数据库。例如,从特定主机采集、按照服务分解的每小时流量汇总。这些数据表比原始数据更复杂,但是其目的不是为了最后发布——它们仍然需要进行更多的分析。历史上,microsoft excel曾经是这类分析的主力应用程序,它提供了数值分析、图表和简单的列式数据视图,可以进行过滤、分类和排序。我曾经看到分析人员将excel文件当作便条一样传递。

我从excel切换到r,是因为我发现它是适合于大规模数值分析的优秀产品。excel的图形化特性使其在处理大规模的数据集时很笨拙。我发现,r的表格操纵能力非常出色,以可存储和可共享工作区的形式提供数据来源,可视化能力很强大,全功能脚本语言的出现实现了快速自动化。本章讨论的大部分工作都可以在excel中完成,但是如果你能够在r的学习上投入时间,我相信你将会发现这是值得的。

本章的前半部分主要关注使用r编程环境访问和操纵数据。下半部分关注使用r进行统计测试的过程。

数据驱动的网络分析

r是一个维护得很好的开放源码项目。综合r档案网络网站维护最新的windows、mac os x和linux版本的二进制文件,r软件包存储库以及大量文档。

安装r的最简单方法是获取对应的二进制文件(在首页的顶部),也可以通过各种主流的软件包管理器获得r。在本章余下的部分中,我假定你使用r的图形界面。

根据你熟悉的工具和环境,还有一些其他与r配合使用的工具。rstudio是一个集成开发环境,以更为传统的ide框架提供数据、项目和任务管理工具。对于emacs用户,emacs speaks statistics提供了一个交互式的环境。