Storm单词技术案例（重点掌握）

7.1、功能说明

设计一个topology，来实现对文档里面的单词出现的频率进行统计。

整个topology分为三个部分：

l RandomSentenceSpout：数据源，在已知的英文句子中，随机发送一条句子出去。

l SplitSentenceBolt：负责将单行文本记录（句子）切分成单词

l WordCountBolt：负责对单词的频率进行累加

7.2、项目主要流程

wordscount实例讲解storm生命周期Storm单词技术案例（重点掌握）

7.3、RandomSentenceSpout的实现及生命周期

wordscount实例讲解storm生命周期Storm单词技术案例（重点掌握）

7.4、SplitSentenceBolt的实现及生命周期

wordscount实例讲解storm生命周期Storm单词技术案例（重点掌握）

7.5、WordCountBolt的实现及生命周期

wordscount实例讲解storm生命周期Storm单词技术案例（重点掌握）

7.6、Stream Grouping详解

Storm里面有7种类型的stream grouping

l Shuffle Grouping: 随机分组，随机派发stream里面的tuple，保证每个bolt接收到的tuple数目大致相同。

l Fields Grouping：按字段分组，比如按userid来分组，具有同样userid的tuple会被分到相同的Bolts里的一个task，而不同的userid则会被分配到不同的bolts里的task。

l All Grouping：广播发送，对于每一个tuple，所有的bolts都会收到。

l Global Grouping：全局分组，这个tuple被分配到storm中的一个bolt的其中一个task。再具体一点就是分配给id值最低的那个task。

l Non Grouping：不分组，这stream grouping个分组的意思是说stream不关心到底谁会收到它的tuple。目前这种分组和Shuffle grouping是一样的效果，有一点不同的是storm会把这个bolt放到这个bolt的订阅者同一个线程里面去执行。

l Direct Grouping：直接分组，这是一种比较特别的分组方法，用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的task的id （OutputCollector.emit方法也会返回task的id）。

l Local or shuffle grouping：如果目标bolt有一个或者多个task在同一个工作进程中，tuple将会被随机发生给这些tasks。否则，和普通的Shuffle Grouping行为一致。

注：如对以上有如何问题，可私信我

wordscount实例讲解storm生命周期Storm单词技术案例（重点掌握）

Storm单词技术案例（重点掌握）

7.1、功能说明

7.2、项目主要流程

7.3、RandomSentenceSpout的实现及生命周期

7.4、SplitSentenceBolt的实现及生命周期

7.5、WordCountBolt的实现及生命周期

7.6、Stream Grouping详解

继续阅读

c语言学习打卡第一天

Vue学习记录--实例的生命周期

React学习笔记（五）：生命周期

Storm InternalIntroductionStorm InternalsBest practice for tuning storm

局部内部类

挣值如何计算？

【Android重点知识突破系列1】——Activity

你所不知道的Activity方法

使用滴答清单的一点小体会

Activity的生命周期及加载模式1.Activity的生命周期2.Activity的加载模式

Android四大组件之Activity(七大生命周期)

Android四大组件之一：Activity总结（上）

Android四大组件之Activity Life Cycle

【React】1020- React useEffect 使用指南

PMBOK学习笔记－项目生命周期特征

初识Apache Storm