選自 Github
作者:Thomas
參與:路、張倩
近日,GitHub 釋出了 2018 年度機器學習和資料科學具體報告。報告顯示,Python 是機器學習 repo 中最常用的語言,Numpy 是最流行的機器學習&資料科學包,最受歡迎項目的桂冠則毫無懸念地由 TensorFlow 摘取。
在 GitHub 的 2018 年度報告中,機器學習和資料科學是 GitHub 上的熱門話題。TensorFlow 是貢獻者最多的項目之一,PyTorch 是增長最快的項目之一,Python 是 GitHub 上第三流行的語言。
為了深入研究 GitHub 上的機器學習和資料科學現狀,GitHub 釋出了關于二者的具體報告,統計了 2018 年 1 月 1 日到 12 月 31 日的貢獻資料,包括 push 代碼、打開 issue 或 pull request、評論 issue 等。至于最流行的包,GitHub 使用了來自依賴圖的資料,包括所有開放 repo 和依賴圖中現有的私有 repo。
程式設計語言

GitHub 檢視了「machine-learning」相關 repo 的貢獻者,對這些 repo 最常用的語言進行了排序。Python 是機器學習 repo 中最常用的語言,也是 GitHub 平台上第三流行的語言。但是,并非所有機器學習 repo 都使用 Python:GitHub 上的一些常用語言也是機器學習項目的常用語言。C++、JavaScript、Java、C#、Shell 和 TypeScript 都在 GitHub 常用語言前十名中,同時也是機器學習項目常用語言前十名。Julia、R 和 Scala 僅為機器學習項目前十,但在 GitHub 平台的使用率并沒有那麼高。Julia 和 R 是資料科學家常用的語言,Scala 在和大資料系統(如 Apache Spark)互動時的使用率逐漸提高。
流行的機器學習和資料科學包
GitHub 從依賴圖中抓取資料,計算機器學習或資料科學項目導入不同流行 Python 包的比例。上述清單展示了這些項目導入包的 top 10。從中,我們可以看到:
- 支援在多元資料上的數學運算的 Numpy 包是最常導入的包,幾乎 1/3 的機器學習和資料科學項目使用了 Numpy 包。
- 用于科學計算的 Scipy 包、用于管理資料集的 pandas、可視化庫 matplotlib 在機器學習和資料科學項目中的使用率均超過 40%。
- Scikit-learn 是流行的機器學習包,包含大量機器學習算法的實作,幾乎 40% 的機器學習和資料科學項目使用該包。
- 接近 1/4 的機器學習和資料科學項目使用用于處理神經網絡的 tensorflow 包。
前十名中的其餘各包是實用程式包:six 是 Python 2 和 3 相容庫,python-dateutil 和 pytz 是處理日期的包。
最受歡迎的機器學習項目
GitHub 還檢視了 2018 年「機器學習」标簽下貢獻者最多的開源項目。tensorflow 是目前最受歡迎的項目,貢獻者人數是第二名 scikit-learn 的 5 倍。前十名中的 explosion/spaCy 和 RasaHQ/rasa_nlu 項目聚焦于自然語言處理問題,CMU-Perceptual-Computing-Lab/openpose、thtrieu/darkflow、ageitgey/face_recognition 和 tesseract-ocr/tesseract 聚焦于圖像處理問題。Julia 語言源代碼也是 2018 年貢獻者最多的項目之一。
原文連結:https://github.blog/2019-01-24-the-state-of-the-octoverse-machine-learning/
本文為機器之心編譯,轉載請聯系本公衆号獲得授權。
✄------------------------------------------------
加入機器之心(全職記者 / 實習生):[email protected]
投稿或尋求報道:[email protected]
廣告 & 商務合作:[email protected]