俄羅斯最大搜尋引擎Yandex開源了一款梯度提升機器學習庫CatBoost

2021-11-09 05:34:52

現在，人工智能正在為越來越多的計算功能提供支援，今天，俄羅斯搜尋巨頭yandex宣布，将向開源社群送出一款梯度提升機器學習庫catboost。它能夠在資料稀疏的情況下“教”機器學習。特别是在沒有像視訊、文本、圖像這類感官型資料的時候，catboost也能根據事務型資料或曆史資料進行操作。

今天，catboost以兩種方式進行了亮相。

首先，yandex宣布，将在自有服務中使用這款新的架構替換原來的機器學習算法matrixnet。matrixnet一直被應用在公司的很多業務上，比如排名、天氣預報、計程車和推薦業務。現在，業務正在逐漸從matrixnet切換到catboost上來，并将延續幾個月。

其次，yandex将免費提供catboost庫，任何希望在自己的程式中使用梯度提升技術的人員都可以在apache許可證下使用這個庫。 yandex機器智能研究主管misha bilenko在接受采訪時表示：“catboost是yandex多年研究的巅峰之作。我們自己一直在使用大量的開源機器學習工具，是以是時候向社會作出回饋了。” 他提到，google在2015年開源的tensorflow以及linux的建立與發展是本次開源catboost的原動力。

bilenko補充說到，暫時還沒有計劃将catboost商業化，或以任何專利的形式将其閉源。 “這和競争對手無關，”他說，“我們很高興有競争對手使用它”

長期以來，随着yandex的不斷發展，它一直在尋求提升俄語世界之外的國際地位。本次開源舉動不僅僅是yandex對開源社群的承諾，而且也展示了yandex希望成為大型科技公司與開發者社群發展中心的決心。

就像google持續地擴充和更新tensorflow一樣，今天的catboost版本是其第一個版本，以後将持續更新疊代。目前，這個庫主要有三個特點：

“減少過度拟合”：這可以幫助你在訓練計劃中取得更好的成果。它基于一種構模組化型的專有算法，這種算法與标準的梯度提升方案不同。

“類别特征支援”：這将改善你的訓練結果，同時允許你使用非數字因素，“而不必預先處理資料，或花費時間和精力将其轉化為數字。”

“api接口支援”：可以通過指令行或者基于python或r的api接口來使用catboost，包括公式分析和訓練可視化工具。

雖然目前有大量的庫可以利用梯度提升或其他解決方案來訓練機器學習系統，但bilenko認為，catboost相較其他大型公司使用的架構（如yandex）的最大優點是測試精準度高。

“有很多機器學習庫的代碼品質比較差，需要做大量的調優工作，”他說，“而catboost隻需少量調試，就可以實作良好的性能。這是一個關鍵性的差別。”

文章原标題《yandex open sources catboost, a gradient boosting machine learning library》，作者：ingrid lunden，譯者：夏天，審校：主題曲。

俄羅斯最大搜尋引擎Yandex開源了一款梯度提升機器學習庫CatBoost

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希