天天看點

資料庫必知詞彙:MADLib

Apache MADlib是Pivotal與UCBerkeley合作的一個基于SQL的資料庫内置的可擴充的開源機器學習庫,提供了精确的資料并行實作、統計和機器學習方法對結構化和非結構化資料進行分析。MADlib提供了豐富的分析模型,包括回歸分析,決策樹,随機森林,貝葉斯分類,向量機,風險模型,KMEAN聚集,文本挖掘,資料校驗等。

MADlib提供了精确的資料并行實作、統計和機器學習方法對結構化和非結構化資料進行分析,主要目的是擴充資料庫的分析能力,可以非常友善的加載到資料庫中, 擴充資料庫的分析功能,2015年7月MADlib成為Apache軟體基金會的孵化項目,其最新版本為MADlib1.9,支援PostgreSQL、Greenplum資料庫和Apache HAWQ。In-Database Analytics的特性使其大大擴充了資料庫的分析功能,充分利用MPP架構使其能夠快速處理海量資料集。

MADlib能直接在資料庫中使用SQL語句對資料進行資料分析,使資料分析的變得便捷友善,是很實用和強大的資料分析工具。

特點:

  • 擅長矩陣計算和仿真模拟;
  • 具有豐富的數學函數,适合算法開發或自主的程式開發;
  • 具有強大的繪圖功能。

它不是面向程式員的,而是面向資料庫開發或DBA的。如果用一句話說明什麼是MADlib,那就是“SQL中的大資料機器學習庫”。通常SQL查詢能發現資料最明顯的模式和趨勢,但要想擷取資料中最為有用的資訊,需要的其實是完全不同的另一套技術,一套牢固紮根于數學和應用數學的技能,當然指的就是資料挖掘或機器學習,而具備這種技術的人才似乎隻存在于學術界中。如果能将SQL的簡單易用與資料挖掘的複雜算法結合起來,充分利用兩者的優勢和特點,那對于廣大傳統資料庫應用技術人員來說,學習和從事資料挖掘工作的門檻将大大降低。現在,魚和熊掌兼得的機會來了,DBAer不用現學Python、R或MATLAB,隻要使用MADlib,用SQL就能實作簡單的資料挖掘。

資料來源:

Apache頂級開源項目——機器學習庫MADlib簡介與應用執行個體

https://www.sohu.com/a/272091763_747818

資料庫資料分析擴充—MADlib

http://blog.geohey.com/shu-ju-ku-shu-ju-fen-xi-kuo-zhan-madlib/