很早以前有个分支,尝试把pig迁移到spark上,但是代码很久没有更新了。目前pig on spark应该是在twitter内部进行着。
flare-spork是基于spork对pig和spark的衔接,把spark部分的代码迁移到了pig 0.12.0上,并且升级了依赖和版本,升级为scala 2.10.3,spark 0.9.1,且兼容hadoop 2.2.0。
目前项目在github上,。打算参考spork已经做的一些东西,继续pig on spark的开发。
github上的内容已经是merge进pig 0.12.0的spork版本了,可以编译和运行。更多细节的内容可以参考里面的。有介绍如何编译,有什么改变,能跑什么样的简单demo。