天天看點

手把手 | 如何在計算機上配置資料科學開發環境

從Python、R等程式設計語言到以Git為例的版本控制系統甚至Unix Shell等指令行工具,資料科學家的武器庫現在越來越豐富了,在個人計算機上同時使用這些武器可能會對新入門的資料科學家們造成不小的困擾,本文就将帶你學習這些資料科學武器的配置方法。

在Datacamp這樣的線上互動教育訓練和教育平台上學習之後,下一步要做的就是使用自己的計算機應用Python,R,Git,或者Unix Shell中的技巧。然而,怎樣準确地知道不同的項目需要什麼樣的準備工作呢?本教程就将幫助你了解需要安裝哪些插件和軟體,它包括:

Anaconda Python的優勢及其在作業系統中的安裝。

同時使用R和RStudio的好處及其在作業系統中的安裝。

Unix Shell的優勢及其使用方法。

Git的優勢及其在作業系統中的安裝。

接下來,讓我們開始學習吧!

Python

為了使用Python,首先你需要在電腦中安裝它。網絡上有許多不同版本的python,但是對于資料科學來說,Anaconda Python發行版是使用最廣泛的。

Anaconda的優點

Anaconda是一個包管理器,也是一個環境管理器,更是一個包含許多開放源碼包的集合的Python發行版。Anaconda的安裝附帶了許多軟體包,如numpy、scikit-learning、scipy以及pandas,這也是安裝Jupyter Notebooks的推薦方法。

Jupyter Notebooks

http://jupyter.org/install.html

下圖顯示了一個正在運作的Jupyter Notebooks。Jupyter Notebooks既包含代碼,也包含豐富的文本元素,如圖表、連結和方程式。

更多Jupyter Notebooks知識:

https://www.datacamp.com/community/tutorials/tutorial-jupyter-notebook

使用Anaconda的一些其他好處:

如果安裝Anaconda後需要額外的軟體包,可以使用Anaconda的軟體包管理器conda或pip。這是非常便捷的,因為你不必自己管理多個包之間的依賴關系。Conda甚至可以輕松地在Python 2和3之間切換。

Anaconda附帶了Python的內建開發環境Spyder。內建開發環境(Integrated Development Environment)是一種編碼工具,它允許你編寫、測試和調試代碼,因為它們通常提供代碼補全、代碼高亮、資源管理和調試工具以及許多其他功能。還可以将Anaconda與其他Python內建開發環境內建在一起,包括PyCharm和Atom。

更多關于Python內建開發環境的資訊

https://www.datacamp.com/community/tutorials/data-science-python-ide

如何安裝Anaconda(Python)

下面的連結将教你在作業系統上安裝Anaconda。

在Mac上安裝:

https://www.datacamp.com/community/tutorials/installing-anaconda-mac-os-x

在Windows上安裝:

https://medium.com/@GalarnykMichael/install-python-on-windows-anaconda-c63c7c3d1444

R語言

大多數使用R程式設計語言的人也安裝了RStudio。RStudio內建開發環境(IDE)通常被認為是使用R 語言最簡單、最高效的方法。

RStudio的優點

安裝R語言後,你就可以使用R語言提供的功能和項目啦,還可以在R解釋器中建構和運作指令。RStudio可提供一個完整的,與R解釋器完美融合的開發環境。

手把手 | 如何在計算機上配置資料科學開發環境

打開RStudio時,螢幕如上圖所示。四個窗格分别是:(a)一個文本編輯器。(b)一個開發環境的控制台。(c)R解釋器。(d)幫助視窗和包管理系統。這些特性使得它能夠成為在你安裝R語言之後真正需要的RStudio。新手們經常問的一個問題是如何在R中安裝軟體包。下面的視訊示範了使用RStudio的包管理器安裝tidyverse的一個方法。

你可以在Datacamp的兩個課程系列中了解更多RStudio的特性。

學習使用RStudio內建開發環境:

第1部分:

https://www.datacamp.com/courses/working-with-the-rstudio-ide-part-1

第2部分:

https://www.datacamp.com/courses/working-with-the-rstudio-ide-part-2

如何安裝R和RStudio

下面是介紹如何在作業系統上安裝R和RStudio的一些連結。

在Mac中安裝R和RStudio:

https://medium.com/@GalarnykMichael/install-r-and-rstudio-on-mac-e911606ce4f4

在Windows中安裝R和RStudio:

https://medium.com/@GalarnykMichael/install-r-and-rstudio-on-windows-5f503f708027

Unix Shell

導航目錄、複制檔案、使用虛拟機等都是資料科學家工作的日常。Unix Shell常被用于完成這些任務。

Unix Shell的一些用法

許多雲計算平台都是基于Linux的(利用Unix Shell的特性)。例如,如果您想在Google Cloud上建立一個資料科學環境,或者在使用Jupyter Notebooks進行深度學習,都需要一些Unix Shell知識。有時可能也會需要Windows虛拟機,但它并不常用。

Windows虛拟機:

https://www.datacamp.com/community/tutorials/aws-ec2-beginner-tutorial

Unix Shell裡面有很多有用的指令,比如 wc 指令能夠計算檔案中的字數和行數、cat指令能夠拼接檔案、head和tail指令能夠把一個大檔案分割成許多小檔案等等。

在資料分析中八個最有用的Shell指令:

https://www.datacamp.com/community/tutorials/shell-commands-data-scientist

Unix Shell是個有用的工具,在實踐中你能經常發現Unix Shell與其他的語言和技術結合使用,在本文中也有很多這樣的例子。

你會經常看到Unix Shell和其他的技術結合使用的情況。比如,在Jupyter文檔裡,你會經常遇到Shell指令行+Phthon代碼的組合。在Jupyter文檔裡如果你想調用Shell指令的話,輸入!然後接着寫shell語句即可實作相應指令的調用。在下面的代碼裡,shell指令ls (這個指令可以列出目前路徑下的所有檔案)被賦給了python變量myfiles。

myfiles = !ls

下面這張圖裡的Python代碼能夠将多個資料集合并到一起。注意在這個Jupyter文檔中紅框裡的部分,它就是一個Unix Shell指令。

手把手 | 如何在計算機上配置資料科學開發環境

請注意,上圖中的例子并不是什麼特殊用法,我們隻是通過它來告訴大家Unix Shell是怎麼用的。如果大家意猶未盡還想多學一點Unix和資料科學相關的技術的話,我們強烈推薦Datacamp上的入門課程《Introduction to Shell for Data Science》 ,免費的哦。課程中會教授很多大牛資料科學家都不知道的神奇秘技,在實際工作中還是很有用的,值得一看。

課程連結:

https://www.datacamp.com/courses/introduction-to-shell-for-data-science

Mac系統中Unix Shell使用

Mac本來就是基于Unix開發的,是以生來就自帶Unix Shell功能。但是Unix系統的衍生版本太多了,系統和系統之間的Unix Shell指令就會稍有差别。有時候你會發現換了個電腦或者換了個系統之後,很多你熟用的指令就用不了了,比如說wget。為了解決這個問題,Mac上面有人做了一個Homebrew軟體來對其進行管理,就像R語言的包用RStudio管理、Python的包用Anaconda進行管理一樣友善。

如何安裝和使用Homebrew:

https://www.datacamp.com/community/tutorials/homebrew-install-use

Windows系統中的Unix Shell

Windows本身沒有Unix Shell功能,但還是能夠通過安裝一些軟體來在Windows中使用Unix Shell。Git on Windows上就有一些可選的Unix工具,安裝了之後就能在cmd裡愉快的使用Unix Shell了。除此之外,Gnu on Windows和Cygwin(最小100mb)都可以讓Windows上運作Unix Shell。

Gnu on Windows

https://github.com/bmatzelle/gow

Git on Windows

https://hackernoon.com/install-git-on-Windows-9acf2a1944f0

Git

Git是目前最流行的版本控制系統,在各種公司和項目中使用極其頻繁。Git能夠記錄使用者對項目的任何修改,是以使用者能夠復原項目到之前的任意版本。Git能夠幫你更好的進行團隊項目的開發,在很多工作場景都能發現Git的身影。學習Git的好處包括:

記性好:隻要是Git管理起來的工程就不會丢,什麼時候想看看以前的樣子都妥妥的

沖突避免:團隊合作中,如果你的修改和别人的修改有沖突的話,Git會提示你,而不是無腦覆寫,這樣就能夠盡量避免合作場景中由于修改沖突而導緻的工程覆寫問題

同步妥:Git跨平台能力很好,在什麼系統上都能用Git管理項目,是以在一個跨平台多人合作的團隊項目中用着特順手

開源輕松:Git能讓R和Python開源包的開發更容易

和其他技術的內建

Git和其他技術也經常能混搭使用。之前咱們說過RStudio IDE(回顧一下看這裡

https://support.rstudio.com/hc/en-us/articles/200532077-Version-Control-with-Git-and-SVN

),它大概是目前最好用的R語言程式設計環境,在RStudio裡面就有版本控制的功能,而且大多數的Python IDE裡也都有版本控制功能。你以為他們會下老本自己開發一個版本控制軟體?别傻啦,它們就是把Git內建起來而已,簡單粗暴又有效。

RStudio IDE

如果你想學更多的Git在資料科學中的使用方法和技術的話,我們推薦您去看DataCamp上的課程 《Introduction to Git for Data Science》,還是免費的哦。

Introduction to Git for Data Science

https://www.datacamp.com/courses/introduction-to-git-for-data-science

安裝Git

下面的連結教你怎麼安裝Git,有Mac和Windows版本:

在蘋果系統上安裝Git

https://hackernoon.com/install-git-on-mac-a884f0c9d32c

Install Git on Windows

在Windows系統上安裝Git:

https://medium.com/m/global-identity?redirectUrl=https://hackernoon.com/install-git-on-Windows-9acf2a1944f0

這作者怎麼也不提供個Linux的,看不起我們嘛!燙燙燙燙燙,難過讓我溢出,是以為什麼是VS的溢出,算了算了……

總結

本教程主要講了怎麼在自己的計算機中搭建資料科學環境。值得注意的是,文中的技術通常是搭配出現的。如果對這個教程有任何問題的話,可以在作者的Twitter中留言詢問。當然了,也歡迎随時檢視作者的Github或者Medium部落格來檢視其他的安裝教程。

作者的Twitter

https://twitter.com/GalarnykMichael

作者的Github

https://github.com/mGalarnyk/Installations_Mac_Ubuntu_Windows

Medium部落格

https://medium.com/@GalarnykMichael

相關報道:

https://www.datacamp.com/community/tutorials/setup-data-science-environment

原文釋出時間為:2018-08-02

本文來自雲栖社群合作夥伴“

大資料文摘

”,了解相關資訊可以關注“大資料文摘”。