作者 | PRANAV DAR 譯者 | SAMBODHI 編輯 | Debra
AI 前線導讀:如果你是開發者,那一定對 GitHub 不會陌生,截止到 2018 年 4 月 10 日(GitHub 上線 10 周年),已經擁有超過 2700 萬開發者,分布在全世界,在超過 8000 萬個項目上進行着緊密協作。Reddit 是網頁新鮮事件和熱點事件的源頭,它也是網際網路最有趣的地方和有高度組織的連結集中處。不僅你能在 Reddit 上分享連結,你也能遇到許多和你一樣分享着同樣興趣的志趣相投的使用者。正因為此,GitHub 和 Reddit 成為了全世界開發者的寵兒。PRANAV DAR 就整理了他認為的不可錯過的五月份精選資料科學和機器學習的 GitHub 開源庫和 Reddit 話題,AI 前線翻譯後以飨讀者。
更多幹貨内容請關注微信公衆号“AI 前線”,(ID:ai-front)介紹
對我而言,GitHub 和 Reddit 都提供了有趣的發現平台。在這兩個平台中,我不僅學習到了資料科學的一些最佳應用,而且還了解了它們是如何編寫的,并希望将來有朝一日能為這些開源庫做出貢獻。
微軟最近斥資數十億美元收購了 GitHub。一直以來,GitHub 是開發人員之間協作的終極平台,我們看到,資料科學和機器學習的社群對 GitHub 也是青睐有加。我們也希望,這一狀況,在微軟收購 GitHub 之後還能持續下去。
至于 Reddit,它依然是資料科學家們的一個極好的知識和觀點的來源。人們在 Reddit 上分享他們的代碼、其他人的代碼、一般的資料科學新聞、尋求幫助和意見、發表研究論文等連結。這是一個真正強大的社群,為與其他資料科學愛好者互動提供了可靠的平台。
今年 5 月,我們在 Reddit 上看到了一些精彩的讨論,其中包括未來 3 年資料科學家的作用,以及一組有史以來最好的機器學習論文集。在 GitHub 社群中,Intel 開放了它的 NLP 架構庫,微軟釋出了 ML.NET 來支援 Dot Net 開發者的機器學習等等。
讓我們深入這個清單,看看 GitHub 上的最熱門的庫以及上個月發生在 Reddit 上有趣的讨論。
你可以檢視以下過去四個月的 GitHub 最熱門的庫和 Reddit 上最熱門的讨論(截止到四月):
一月:https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/
二月:https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018
三月:https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018
四月:https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/
GitHub 庫 ML.NET
(https://github.com/dotnet/machinelearning)
ML.NET 是一個開源的機器學習架構,旨在讓 ML 面向.NET 開發人員。有了 ML,開發人員得以能夠在.NET 開發自己的模型,而所有這些都不需要建構機器學習模型的經驗。目前是個預覽版,包含基本的分類和回歸算法。
ML.NET 最初由 Microsoft 開發,現已廣泛應用于 Windows、Excel、Access、Bing 等産品中。這個版本還捆綁了.NET API,用于各種模型訓練模型的任務。
NLP Architect
(https://github.com/NervanaSystems/nlp-architect)
NLP Architect 是一個開源的 Python 庫,旨在讓資料科學家能夠得以探索自然語言處理(Natural Language Processing,NLP)和自然語言了解(Natural Language Understandings,NLU)領域中最先進的深度學習技術。該庫由 Intel Lab 的研究人員開發并開源。
這個庫中,我最喜歡的元件之一是可視化元件,它以整潔的方式顯示模型的注釋。通路這個網址來檢視我們對 NLP Architect 的報道:
https://www.analyticsvidhya.com/blog/2018/05/nlp-architect-an-awesome-open-source-nlp-python-library-from-intel-ai-lab-with-github-link/
Amazon Scraper
(https://github.com/tducret/amazon-scraper-python)
這個 Python 包使你能夠從 Amazon 搜尋和提取産品資訊。與其編寫幾行代碼來确定需要分析哪些産品,不如使用這個包就可以了。你需要做的就是輸入想要搜尋的關鍵詞和最大産品數量(這是可選的)。你可以使用 CSV 格式獲得輸出,然後将其插入你最喜歡的工具中并開始分析。
PIGO – Face Detection in Go
(https://github.com/esimov/pigo)
PIGO 是一個用 Go 程式設計語言開發的人臉檢測庫。它是基于這篇研究論文 Pixel Intensity Comparison -based Object detection(https://arxiv.org/pdf/1305.4537.pdf)開發的。根據該庫的說明,這個庫的一些主要特點是:
處理速度快;在檢測之前無需對圖像進行預處理;無需計算積分圖像、圖像金字塔、HOG 金字塔或任何其他類似的資料結構;人臉檢測是基于二進制檔案資料樹結構編碼的像素強度比較。
RL-Adventure-2: Policy Gradients
(https://github.com/higgsfield/RL-Adventure-2)
這個庫是為所有的強化學習愛好者開發的。深度學習已經推動了強化學習程式設計人工智能以人類專家水準技能進行 Atari 遊戲。這個庫涵蓋了政策梯度算法的有趣的新擴充,這是解決強化學習問題的最受歡迎的預設選擇之一。這些擴充帶來了訓練時間的改善,提升了強化學習的整體表現。
Reddit 讨論 實時多手姿态判斷示範
(https://www.reddit.com/r/MachineLearning/comments/8n04hp/p_realtime_multihand_pose_estimation_demo/)
作者将上述概念以視訊的形式釋出後,讨論就開始了。這是一個令人着迷的概念,使用深度學習來看到它變得生動起來,這真是一件美妙的事情。它引起了資料科學家和機器學習愛好者的關注,正如你可以通過讨論中的問題數量看得出。我鼓勵大家去浏覽一下這些讨論,你們會對這項技術是如何實作的有一個很好的認識。
為了證明機器學習之美,你們會選擇哪篇研究論文來證明這一點?
(https://www.reddit.com/r/MachineLearning/comments/8kbmyn/d_if_you_had_to_show_one_paper_to_someone_to_show/)
如果你是機器學習的菜鳥,或者正在尋找需要閱讀或者參考的論文,那麼這就是一條很棒的線索。在這場讨論中提到的一些優秀的機器學習研究論文,每一個有遠大抱負或有所建樹的資料科學家都會從中受益。這場讨論包含了從基本的機器學習概念(如高斯模型)到進階概念(如神經藝術風格轉換)、使用簡單功能的提更新聯來實作快速目标檢測等論文。
我們目前對泛化了解多少?接下來該問些什麼呢?
(https://www.reddit.com/r/MachineLearning/comments/8mpxmm/d_what_do_we_currently_know_about_generalization/)
深度學習中的泛化問題一直是人們争論不休的話題。正如這篇文章的作者所提到的,我們仍然有不少場景需要努力去實作任何泛化。這就引起了對目前的泛化現狀的深入讨論,以及為什麼泛化在深度學習和強化學習中很難了解。這些讨論中,包括冗長的文章,如果你是這個領域的菜鳥,這些文章對你來說可能有點複雜。盡管如此,我還是建議你,無論如何都要通讀這些文章,因為這些文章都是由一些經驗豐富、知識淵博的資料科學家提出的看法。
醫療行業中的機器學習狀況
(https://www.reddit.com/r/MachineLearning/comments/8mqh2r/d_machine_learning_deployed_in_health_care_and/)
這個話題深入研究了醫療行業(不是研究領域)目前的機器學習現狀。這個行業的資料科學家分享了他們在工作中得到的經驗和觀點。當誰找你詢問生命科學領域中有關機器學習和深度學習的任何問題時,你就可以參考這個話題。
未來三年資料科學家的職業發展前景
(https://www.reddit.com/r/datascience/comments/8m0zev/what_are_the_potential_career_paths_for_data/)
這個話題,也是大多數人在進入該領域之前都會問的一個非常相關的問題。随着自動化機器學習工具的迅速普及,企業在幾年内還會需要資料科學家嗎?這個話題收集了資料科學領域中不同人士的觀點,他們認為資料科學家在未來幾年内将會擴充或者多樣化。這裡有一些很好的職業建議,是以一定要來看一下。
原文連結:
https://www.analyticsvidhya.com/blog/2018/06/top-5-github-reddit-data-science-machine-learning-may-2018/