本节书摘来自华章出版社《数据科学:r语言实现》一 书中的第1章,第1.1节,作者:r for data science cookbook 丘祐玮(david chiu),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
r语言是数据科学家的主流编程语言。基于著名的数据分析网站kdnuggets的民意测验,3项(2012年到2014年)的调查显示,r语言在数据分析、数据挖掘和数据科学领域中是最受欢迎的语言。对许多数据科学家来说,r语言不仅是一门编程语言,而且相关软件还提供了交互式的开发环境,支持运行各种数据分析任务。
r语言在数据操作和分析方面有许多优势。下面是3个最显著的优势。
开源并且免费:用户使用sas或者spss需要购买使用许可。而用户使用r语言是免费的,并且可以方便地学习如何实现每一个函数源代码中的统计算法。
强大的数据分析函数:r语言在数据科学领域很出名。许多生物学家、统计学家和编程人员在使用cran(comprehensive r archive network)全球发布之前,就把他们的模型封装在r程序包里了。这种机制允许任何用户通过cran包下载和安装,开展分析项目。
易于使用:由于r语言是一种自解释的高级语言,使用r语言编程非常简单。r语言用户只需要知道如何使用r函数,并借助强大的文档即可知道每一个变量如何工作,而不需要了解其背后复杂的数学知识,就可以轻松地执行高级数据分析任务。
这些优势使得复杂的数据分析变得更加简单易行。对此,r语言用户都深信不疑。而且,r语言尤其适合基础用户或者开发人员。对于一名r语言用户,我们只需知道函数如何工作,而不需要知道函数实现的具体知识。类似于spss,我们可以通过r语言的交互式shell,运行各种类型的数据分析任务。另外,作为一名r语言开发人员,我们可以编写函数来创建新的模型,甚至可以把实现的函数封装在包中。
本书并不会讲解如何从零开始编写r程序。相反,本书的目标是要讨论如何成为一名r语言开发人员。本章的主要目的是向用户展示如何定义函数,从而加速分析过程。我们首先介绍如何创建函数,然后介绍r环境,接着讲解如何创建匹配参数。 本章的内容还会涵盖如何执行r语言函数式编程,如何创建高级函数,例如中缀操作符和替代,以及如何处理错误和调试函数。