天天看點

不容錯過的2017資料科學15大熱門GitHub項目

<b>介紹:</b>

GitHub現在不再僅僅是一個軟體寄存管理器,而是軟體工程師通過它來共享他們自己開發的工具/庫,甚至這些資源對一些公司都很重要。作為一名狂熱的資料科學愛好者,我總結了一系列在2017年尤為出名的知識庫!

不容錯過的2017資料科學15大熱門GitHub項目

<b>目錄:</b>

<b>1.</b><b>學習資源庫:</b>

1.Awesome

Data Science

2.Machine

Learning / Deep Learning Cheat Sheet

3.Oxford

Deep Natural Language Processing Course Lectures

4.PyTorch

– Tutorial

5.Resources

of NIPS 2017

<b>2.</b><b>開源軟體:</b>

1.TensorFlow

2.TuriCreate

– A Simplified Machine Learning Library

3.OpenPose

4.DeepSpeech

5.Mobile

Deep Learning

6.Visdom

7.Deep

Photo Style Transfer

8.CycleGAN

9.Seq2seq

10.Pix2code

<b>1.</b><b>學習資源</b>

<a href="https://github.com/bulutyazilim/awesome-datascience" target="_blank"><b>1.1:Awesome Data Science</b><b>:</b></a>

這個GitHub是資料科學的資源指南,它是建立在多年來的積累貢獻,從引導指南、資訊圖表到人們在Twitter,Facebook,Instagram等社交網站上的資源連結,其中有很多資源可供觀看,無論是否你是初學者還是老手。

回顧一下目錄中的内容,一下内容都是資源庫中最具深度的代表:

不容錯過的2017資料科學15大熱門GitHub項目

<a href="https://github.com/kailashahirwar/cheatsheets-ai" target="_blank"><b>1.2</b><b>機器學習</b><b>/</b><b>深度學習備忘錄</b></a>

這個資源庫由常用的工具和技術組成,以cheatsheets的形式編譯。這些手冊的範圍很廣,從像Pandas這樣的非常簡單的工具到深度學習等技術。給這些最常用的庫分類完成後,你在也不需要谷歌這些工具最常用的技巧和竅門。

Cheatsheets包括:Pandas,numpy,scikit學習,matplotlib,ggplot,dplyr,tidyr,pySpark和神經網絡。

<a href="https://github.com/oxford-cs-deepnlp-2017/lectures" target="_blank"><b>1.3</b><b>牛津深度自然語言處理課程講座</b></a>

斯坦福大學自然語言處理課程一直是希望進入自然語言處理領域的人士的黃金課程。但随着Deep Learning的出現,NLP取得了巨大的進步,這要歸功于深度學習架構(如RNN和LSTM)的出現。

這個基于牛津大學NLP講座的知識庫将NLP的教育提高到了一個新的水準。這些講座是使用RNN一門實踐性的課程,涵蓋了用語言模組化,語音識别,文本到語音等。這個知識庫包含了牛津講座的所有資料,提供實用的講義材料配置設定。

<a href="https://github.com/yunjey/pytorch-tutorial" target="_blank"><b>1.4 PyTorch - </b><b>教程</b></a>

不容錯過的2017資料科學15大熱門GitHub項目

從目前來看,PyTorch是Tensorflow的唯一競争對手,并且在維護其聲譽方面做得很好。随着Pythonic風格編碼,動态計算以及更快的原型開發的需求,越來越多的開發者開始選擇PyTorch。是以PyTorch也引起了深度學習社群的足夠的重視。

<a href="https://github.com/hindupuravinash/nips2017" target="_blank"><b>1.5 NIPS 2017</b><b>的資源</b></a>

該知識庫是NIPS 2017年會議上所有受邀講座、教程和研讨會的資源和幻燈片清單。NIPS是一個專門針對機器學習和計算神經科學的年度會議。近幾年來資料科學界的突破性研究大多是這個研讨會的研究成果,如果你想保持領先的地位,這絕對是最佳的資源!

<b></b>

不容錯過的2017資料科學15大熱門GitHub項目

自TensorFlow正式釋出以來,已經有2年的時間了,它一直保持着“機器學習/深度學習”頂級庫的稱号。Google Brain和TensorFlow背後的社群一直在積極貢獻,尤其是在深度學習領域。

TensorFlow最初是作為使用資料流圖進行數值計算的庫而建構的。但從目前的狀況來看,它可以說是建立深度學習模型的完整庫。雖然TensorFlow主要支援Python,但它也支援諸如C,C ++,Java等語言。

<a href="https://github.com/apple/turicreate" target="_blank"><b>2.2 TuriCreate-</b><b>簡化的機器學習庫</b></a>

不容錯過的2017資料科學15大熱門GitHub項目

TuriCreate擁有易于使用的建立和部署機器學習模型的複雜任務,如對象檢測,活動分類和推薦系統。

不容錯過的2017資料科學15大熱門GitHub項目

OpenPose是一個多人關鍵點檢測庫,可幫助你以實時的速度檢測圖像或視訊中某個人的位置。由CMU的感覺計算實驗室開發,OpenPose的成功證明了開源軟體研究如何能夠輕松應用在行業中。

OpenPose幫助解決的一個用例是活動檢測。例如,由演員完成的活動可以被實時捕獲。然後這些關鍵點和他們的動作可以用來制作動畫電影。OpenPose有一個可用于通路庫的C ++ API,它也有一個簡單的指令行界面來處理圖像或視訊。

不容錯過的2017資料科學15大熱門GitHub項目

DeepSpeech庫是由百度研究開發的語音合成技術的開源技術。它基于TensorFlow,可以專門用于Python,但也可以綁定到NodeJS,也可以在指令行上使用。

Mozilla是從頭開始建構DeepSpeech的主要從業人員之一,Mozilla技術戰略副總裁Sean White 曾經評價說:“隻有少數滿足商業品質的語音識别服務可用,主要由幾個大公司提供。這項技術減少了初創公司、研究人員甚至更大的公司想要為他們的産品和服務發言的使用者選擇和可用功能。與社群志同道合的開發人員,公司和研究人員一起,我們已經應用了複雜的機器學習技術和各種各樣的創新來建構語音到文本的引擎”

<a href="https://github.com/baidu/mobile-deep-learning" target="_blank"><b>2.5</b><b>移動深度學習</b></a>

不容錯過的2017資料科學15大熱門GitHub項目

這個庫為移動平台帶來了最先進的資料科學技術。該知識庫由百度研究開發,旨在将低學習模式部署在Android和IOS等移動裝置上,具有低複雜度和高速度的特點。存儲庫本身中解釋的簡單用例是對象檢測,它可以識别圖像中的對象的确切位置。

不容錯過的2017資料科學15大熱門GitHub項目

Visdom是一個支援在協作者之間廣播圖表、圖像和文本的庫。你可以以程式設計方式或通過UI組織可視化空間,為實時資料建立儀表闆,檢查實驗結果或調試實驗性代碼。

輸入到繪圖函數中的輸入是不同的,盡管其中大多數輸入張量X比包含資料和包含可選資料變量(例如标簽或時間戳)的(可選的)張量Y作為輸入。它支援所有基本繪圖類型來建立由Plotly支援的可視化。Visdom在Python中支援Torch和Numpy。

<a href="https://github.com/luanfujun/deep-photo-styletransfer" target="_blank"><b>2.7</b><b>深色照片風格轉移</b></a>

不容錯過的2017資料科學15大熱門GitHub項目
不容錯過的2017資料科學15大熱門GitHub項目

CycleGAN是一個有趣而且功能強大的庫,展示了最先進的技術的未來。舉個例子,下面的圖檔是這個庫可以做什麼的一瞥——調整圖像的深度感覺。這裡的重點是,你沒有告訴算法圖檔中的哪一部分需要重點關注。

這個庫目前是用Lua編寫的,但是它也可以在指令行中使用。

Seq2seq最初是為機器翻譯而開發的,但後來被開發用于各種其他任務,包括彙總、會話模組化和圖像字幕。隻要可以将一個格式的輸入資料編碼成另一個問題,并将其解碼為另一種格式,就可以使用這個架構。它使用Python所有流行的Tensorflow庫進行程式設計。

這是一個非常令人興奮的項目,它可以使用深度學習,嘗試為給定的GUI自動生成代碼。在建構網站或移動界面時,前端工程師通常必須編寫耗時且無生産力的重複代碼。這從本質上阻止了開發人員将大部分時間用于實作正在建構的軟體的實際功能和邏輯。Pix2code可以通過自動化過程來彌補這一點。它基于一種新穎的方法,允許從單個GUI螢幕截圖生成計算機令牌作為輸入。

Pix2code是用python編寫的,可用于将手機和網絡界面的圖像捕獲轉換為代碼。

<b>結束語:</b>

我希望你能夠了解2017年在GitHub上釋出的一些新的開源工具/技術。我還列出了在GitHub上趨勢的資源。如果你以前看過更多這樣有用的知識庫,請在下面的評論中告訴我們!

文章原标題《15

Trending Data Science GitHub Repositories you can not miss in 2017》,

譯者:虎說八道,審閱: