Fregata: TalkingData開源的輕量級大規模機器學習庫

2023-07-30 20:26:02

原文：Fregata: Machine Learning

作者：GitHub 翻譯：Daisy 責編：仲培藝

Fregata是TalkingData開源的一個基于Spark的輕量級、超快速的大規模機器學習庫，并在Scala中提供進階API。

顯著特征：

更加準确：Fregata的精确度要高于MLLib；
高速度：對于廣義線性模型，Fregata通常彙合在一個資料曆元。對于10億*10億的資料集，Fregata可以在1分鐘内使用記憶體緩存或10分鐘完成一個廣義線性模型訓練，速度要比MLLib快10-100倍；
參數自由：Fregata使用GSA SGD優化，無需學習速率調整，原因是研發團隊找到了一種在訓練過程中計算學習速率的方法。當面對超高維問題時，Fregata會動态計算剩餘記憶體來确定輸出的稀疏性，自動平衡精度和效率；
輕量：Fregata隻使用了Spark的标準API即可快速、無縫地內建到Spark上的大多數業務資料處理流程中。

架構

這裡主要介紹1.0版本架構。核心部分主要基于GSA獨立算法實作，包括分類，回歸和聚類：

Spark：主要通過封裝core.jar實作基于Spark的大規模機器學習算法，并提供相應的算法。

如何安裝及快速入門，大家可以通路其在Github上的開源位址。

130+位講師，16大分論壇，中國科學院院士陳潤生、滴滴出行進階副總裁章文嵩、聯想集團進階副總裁兼CTO芮勇、上交所前總工程師白碩等專家将親臨2016中國大資料技術大會，票價折扣即将結束，預購從速。

Fregata: TalkingData開源的輕量級大規模機器學習庫

繼續閱讀