天天看點

Fregata: TalkingData開源的輕量級大規模機器學習庫

原文:Fregata: Machine Learning

作者:GitHub 翻譯:Daisy 責編:仲培藝

Fregata是TalkingData開源的一個基于Spark的輕量級、超快速的大規模機器學習庫,并在Scala中提供進階API。

顯著特征:

  • 更加準确:Fregata的精确度要高于MLLib;
  • 高速度:對于廣義線性模型,Fregata通常彙合在一個資料曆元。對于10億*10億的資料集,Fregata可以在1分鐘内使用記憶體緩存或10分鐘完成一個廣義線性模型訓練,速度要比MLLib快10-100倍;
  • 參數自由:Fregata使用GSA SGD優化,無需學習速率調整,原因是研發團隊找到了一種在訓練過程中計算學習速率的方法。當面對超高維問題時,Fregata會動态計算剩餘記憶體來确定輸出的稀疏性,自動平衡精度和效率;
  • 輕量:Fregata隻使用了Spark的标準API即可快速、無縫地內建到Spark上的大多數業務資料處理流程中。

架構

這裡主要介紹1.0版本架構。核心部分主要基于GSA獨立算法實作,包括分類,回歸和聚類:

  • 分類:支援二進制和多重分類
  • 回歸:在下面的版本中釋出
  • 聚類:在下面的版本中釋出

Spark:主要通過封裝core.jar實作基于Spark的大規模機器學習算法,并提供相應的算法。

如何安裝及快速入門,大家可以通路其在Github上的開源位址。

130+位講師,16大分論壇,中國科學院院士陳潤生、滴滴出行進階副總裁章文嵩、聯想集團進階副總裁兼CTO芮勇、上交所前總工程師白碩等專家将親臨2016中國大資料技術大會,票價折扣即将結束,預購從速。
Fregata: TalkingData開源的輕量級大規模機器學習庫

繼續閱讀