現在,人工智能正在為越來越多的計算功能提供支援,今天,俄羅斯搜尋巨頭yandex宣布,将向開源社群送出一款梯度提升機器學習庫catboost。它能夠在資料稀疏的情況下“教”機器學習。特别是在沒有像視訊、文本、圖像這類感官型資料的時候,catboost也能根據事務型資料或曆史資料進行操作。
今天,catboost以兩種方式進行了亮相。
首先,yandex宣布,将在自有服務中使用這款新的架構替換原來的機器學習算法matrixnet。matrixnet一直被應用在公司的很多業務上,比如排名、天氣預報、計程車和推薦業務。現在,業務正在逐漸從matrixnet切換到catboost上來,并将延續幾個月。
其次,yandex将免費提供catboost庫,任何希望在自己的程式中使用梯度提升技術的人員都可以在apache許可證下使用這個庫。 yandex機器智能研究主管misha bilenko在接受采訪時表示:“catboost是yandex多年研究的巅峰之作。我們自己一直在使用大量的開源機器學習工具,是以是時候向社會作出回饋了。” 他提到,google在2015年開源的tensorflow以及linux的建立與發展是本次開源catboost的原動力。
bilenko補充說到,暫時還沒有計劃将catboost商業化,或以任何專利的形式将其閉源。 “這和競争對手無關,”他說,“我們很高興有競争對手使用它”
長期以來,随着yandex的不斷發展,它一直在尋求提升俄語世界之外的國際地位。本次開源舉動不僅僅是yandex對開源社群的承諾,而且也展示了yandex希望成為大型科技公司與開發者社群發展中心的決心。
就像google持續地擴充和更新tensorflow一樣,今天的catboost版本是其第一個版本,以後将持續更新疊代。目前,這個庫主要有三個特點:
“減少過度拟合”:這可以幫助你在訓練計劃中取得更好的成果。它基于一種構模組化型的專有算法,這種算法與标準的梯度提升方案不同。
“類别特征支援”:這将改善你的訓練結果,同時允許你使用非數字因素,“而不必預先處理資料,或花費時間和精力将其轉化為數字。”
“api接口支援”:可以通過指令行或者基于python或r的api接口來使用catboost,包括公式分析和訓練可視化工具。
雖然目前有大量的庫可以利用梯度提升或其他解決方案來訓練機器學習系統,但bilenko認為,catboost相較其他大型公司使用的架構(如yandex)的最大優點是測試精準度高。
“有很多機器學習庫的代碼品質比較差,需要做大量的調優工作,”他說,“而catboost隻需少量調試,就可以實作良好的性能。這是一個關鍵性的差別。”
文章原标題《yandex open sources catboost, a gradient boosting machine learning library》,作者:ingrid lunden,譯者:夏天,審校:主題曲。