天天看點

DataFu在Apache進入孵化狀态

該項目建立于2012年1月,早期的定位是作為Pig項目的使用者定義函數集(UDF )。相對于更加通用的UDF集如​​Piggybank​​​,Datafu更側重于資料挖掘和統計 類的函數,例如分位數計算和取樣方法。2013年10月,一個名為DataFu ​​Hourglass​​的新庫加入到此項目。Hourglass是用于MapReduce的類庫,為作業提供了處理增量資料的能力。其處理方式一般是在HDFS中儲存上一個作業的狀态,并用它來處理新的輸入。現在這兩個項目都成為孵化器的一部分。