我们知道storm有一个很重要的特性,那就是storm api能够保证它的一个tuple能够被完全处理,这一点尤为重要,其实storm中的可靠性是由spout和bolt组件共同完成的,下面就从spout和bolt两个方便给大家介绍一下storm中的可靠性,最后会给出一个实现了可靠性的例子。
在storm中,消息处理可靠性从spout开始的。storm为了保证数据能正确的被处理, 对于spout产生的每一个tuple,storm都能够进行跟踪,这里面涉及到了ack/fail的处理, 如果一个tuple被处理成功,那么spout便会调用其ack方法,如果失败,则会调用fail方法。而topology中处理tuple的每一个bolt都会通过outputcollector来告知storm,当前bolt处理是否成功。
我们知道spout必须能够追踪它发射的所有tuples或其子tuples,并且在这些tuples处理失败时能够重发。那么spout如何追踪tuple呢?storm是通过一个简单的anchor机制来实现的(在下面的bolt可靠性中会讲到)。
如上图所示,实线代表的是spout发射的根tuple,而虚线代表的就是来源于根tuple的子tuples。这个图就是一个tupletree。在这个tree中,所有的bolt都会ack或fail一个tuple,如果tree中所有的bolt都ack了经过它的tuple,那么spout的ack方法就会被调用,表示整个消息被处理完成。如果tree中的任何一个bolt fail一个tuple,或者整个处理过程超时,则spout的fail方法便会被调用。
另外一点, storm只是通过ack/fail机制来告诉应用方bolt中间的处理情况, 对于成功/失败该如何处理, 必须由应用自己来决定, 因为storm内部也没有保存失败的具体数据, 但是也有办法知道失败记录,因为spout的ack/fail方法会附带一个msgid对象, 我们可以在最初发射tuple的时候将将msgid设置为tuple, 然后在ack/fail中对该tuple进行处理。这里其实有个问题, 就是每个bolt执行完之后要显式的调用ack/fail,否则会出现tuple不释放导致oom.
不知道storm在最初设计的时候,为什么不将bolt的ack设置为默认调用。
storm的ispout接口定义了三个与可靠性有关的方法:nexttuple,ack和fail。
我们知道,当storm的spout发射一个tuple后,他便会调用nexttuple()方法,在这个过程中,保证可靠性处理的第一步就是为发射出的tuple分配一个唯一的id,并把这个id传给emit()方法:
为tuple分配一个唯一id的目的就是为了告诉storm,spout希望这个tuple产生的tuple tree在处理完成或失败后告知它,如果tuple被处理成功,spout的ack()方法就会被调用,相反如果处理失败,spout的fail()方法就会被调用,tuple的id也都会传入这两个方法中。
需要注意的是,虽然spout有可靠性机制,但这个机制是否启用由我们控制的。ibasicbolt在emit一个tuple后自动调用ack()方法,用来实现比较简单的计算。如果是irichbolt的话,如果想要实现anchor,必须自己调用ack方法。
bolt中的可靠性主要靠两步来实现:
发射衍生tuple的同时anchor原tuple
对各个tuples做ack或fail处理
anchor一个tuple就意味着在输入tuple和其衍生tuple之间建立了关联,关联之后的tuple便加入了tuple tree。我们可以通过如下方式anchor一个tuple:
如果我们发射新tuple的时候不同时发射元tuple,那么新发射的tuple不会参与到整个可靠性机制中,它们的fail不会引起root tuple的重发,我们成为unanchor:
ack和fail一个tuple的操作方法:
上面讲过了,ibasicbolt 实现类不关心ack/fail, spout的ack/fail完全由后面的bolt的ack/fail来决定. 其execute方法的basicoutputcollector参数也没有提供ack/fail方法给你调用. 相当于忽略了该bolt的ack/fail行为。
在 irichbolt实现类中, 如果outputcollector.emit(oldtuple,newtuple)这样调用来发射tuple(anchoring), 那么后面的bolt的ack/fail会影响spout ack/fail, 如果collector.emit(newtuple)这样来发射tuple(在storm称之为anchoring), 则相当于断开了后面bolt的ack/fail对spout的影响.spout将立即根据当前bolt前面的ack/fail的情况来决定调用spout的ack/fail.
所以某个bolt后面的bolt的成功失败对你来说不关心, 你可以直接通过这种方式来忽略.中间的某个bolt fail了, 不会影响后面的bolt执行, 但是会立即触发spout的fail. 相当于短路了, 后面bolt虽然也执行了, 但是ack/fail对spout已经无意义了. 也就是说, 只要bolt集合中的任何一个fail了, 会立即触发spout的fail方法. 而ack方法需要所有的bolt调用为ack才能触发. 所以ibasicbolt用来做filter或者简单的计算比较合适。
storm的可靠性是由spout和bolt共同决定的,storm利用了anchor机制来保证处理的可靠性。如果spout发射的一个tuple被完全处理,那么spout的ack方法即会被调用,如果失败,则其fail方法便会被调用。在bolt中,通过在emit(oldtuple,newtuple)的方式来anchor一个tuple,如果处理成功,则需要调用bolt的ack方法,如果失败,则调用其fail方法。一个tuple及其子tuple共同构成了一个tupletree,当这个tree中所有tuple在指定时间内都完成时spout的ack才会被调用,但是当tree中任何一个tuple失败时,spout的fail方法则会被调用。
ibasicbolt类会自动调用ack/fail方法,而irichbolt则需要我们手动调用ack/fail方法。我们可以通过topology_message_timeout_secs参数来指定一个tuple的处理完成时间,若这个时间未被处理完成,则spout也会调用fail方法。
一个实现可靠性的spout:
一个实现可靠性的bolt: