使用storm統計英文版<<聖經>>的詞頻

我估計自己是瘋掉了.....

剛入門storm,就先硬生生的來杠這部著作......

我先擦一把汗哈,然後呢,整個流程需要五個步驟,希望大家都可以得到屬于自己的統計資料

1.下載下傳聖經英文版,并修改一部分内容,例如标點

2.參考我的另一篇部落格,那裡面幾乎是源碼(隻改兩個類)

3.修改源碼

4.準備枕頭

5.擡頭看結果

一.下載下傳并修改下載下傳位址:http://www.o-bible.com/gb/dlb.html 修改:主要是外國人的習慣可能會使我們根據空格統計時把用标點符号連接配接的兩個單詞當做一個單詞

把所有逗号, 替換為""
把所有句号. 替換為" "(注意有空格)
把所有分号; 替換為""
把所有問号? 替換為""
把所有冒号: 替換為""
把所有左括号( 替換為" "(注意有空格)
把所有右括号) 替換為""(沒有空格)
(進階項):替換所有數字為 ""
(進階項):替換所有表述為 "章節"含義的單詞為""

二.參考部落格

請先參考我的部落格:http://blog.csdn.net/weixin_35757704/article/details/77246313

這篇部落格思路很簡單,十分基礎,參考它是因為我的這個就是在那篇部落格源碼的基礎上改進來的

三.修改源碼

這裡面有具體的代碼,我們隻需要簡單修改兩個類就可以:

CreateSpout 修改

import backtype.storm.spout.SpoutOutputCollector;
import backtype.storm.task.TopologyContext;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseRichSpout;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;
import backtype.storm.utils.Utils;
import org.joda.time.DateTime;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.Map;

/**
 * 建立資料源
 */
public class CreateSpout extends BaseRichSpout {

    private SpoutOutputCollector collector;
    private String[] sentences = null; //為資料的總容量
    String pathname;
    File filename;
    InputStreamReader reader;
    BufferedReader br;

    private String read() {

        try {
            String line = "";
            line = br.readLine();
            if (line != null) {
                return line;
            } else {
                Utils.sleep(200000000);
            }
        } catch (Exception e) {
        }
        return "null";
    }

    @Override
    public void open(Map map, TopologyContext topologyContext, SpoutOutputCollector spoutOutputCollector) {
        this.collector = spoutOutputCollector;
        try {
            pathname = "C:\\storm\\storm_Pro\\kjv.txt";
            filename = new File(pathname);
            reader = new InputStreamReader(
                    new FileInputStream(filename));
            br = new BufferedReader(reader);

        } catch (Exception e) {

        }
    }

    @Override
    public void nextTuple() {
        sentences = new String[]{read()};
        /*storm會循環的調用這個方法*/
        /*線程進行休眠,10s發送一次資料,在這10s内,讓其餘工作進行*/
        Utils.sleep(100);
        //獲得資料源
        System.out.println(new DateTime().toString("HH:mm:ss") + "--------------CreateSpout 開始發送資料----------");
        this.collector.emit(new Values(sentences));
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {
        outputFieldsDeclarer.declare(new Fields("sentence"));
    }

}

對這個類的修改,就是把資料源修改一下,從本地檔案 kjv.txt讀取,這也是<<聖經>>英文版的txt檔案.大家也可以從其他地方下載下傳.

PrintBolt 修改

import backtype.storm.task.OutputCollector;
import backtype.storm.task.TopologyContext;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseRichBolt;
import backtype.storm.tuple.Tuple;
import backtype.storm.utils.Utils;
import org.joda.time.DateTime;

import java.util.Map;

public class PrintBolt extends BaseRichBolt {
    @Override
    public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {
    }

    @Override
    public void execute(Tuple input) {

        System.out.println(new DateTime().toString("HH:mm:ss") + "--------------------final bolt 開始運作--------------------");
        Map<String, Integer> counts = (Map<String, Integer>) input.getValue(0);
        /*最後一個階段,可以持久到mysql等資料庫中*/
        System.out.println(justForm(20 - 8) + "key" + justForm(20 - 8) + "      " + "value");
       
	try {
	   	 System.out.println("/");//與之前的列印資訊分隔,直覺的得到結果
 		for (Map.Entry<String, Integer> kv : counts.entrySet()) { /*這裡的justForm()函數是為了保證格式一緻*/
                System.out.println(kv.getKey() + justForm(kv.getKey().length()) + " 頻數 : " + kv.getValue());
            }
       	} catch (Exception e) {
            System.out.println("/得到一個錯誤的值");
        }
	try {
            Utils.sleep(60000);
        }catch (Exception e){

        }

    }

    private String justForm(int length) {
        for (int i = 0; i < 20 - length; i++) {
            System.out.print(" ");
        }
        return "";
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {

    }
}

對結果列印的代碼進行修改是因為我們都知道,這種事情不是一時半會能完成的,是以這裡設定一個等待的線程,不用實時的列印結果,隻需要1分鐘列印一次就好,不過我測試了一下,虛拟機win8.1+8G記憶體+SSD+i7-7700HQ的兩個核心,也使用了20+分鐘,下圖是我在主控端上截取的當時的資料:

使用storm統計英文版<<聖經>>的詞頻

四.準備枕頭

點一下運作,能正常跑兩分鐘,觀察是不是死循環,如果一切正常,就可以倒頭睡覺了

五.擡頭看結果

下圖有點恐怖,密集型恐懼症患者請捂臉.....

我的編譯器是Intellij IDEA,它可以在控制台儲存相當多的資料,是以可以都得到,其他的編輯器我就不是很了解了,如果為了以防萬一,可以直接列印到本地檔案中

而且如果你能夠觀察到右側滑塊的位置的話,那麼你就可以知道為什麼會有第四步了.....

使用storm統計英文版<<聖經>>的詞頻

大家可能注意到了,有許多頻數隻是1,大緻翻譯就是不同篇章的第1節,第二節等,是以這個篩選條件是有很大的改進空間的.

期待大家可以得到更好的篩選結果.大笑

使用storm統計英文版<<聖經>>的詞頻

繼續閱讀

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

初識Apache Storm

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

繼續閱讀

陳建州性騷擾風波後首發文，邀請球迷支援自己主隊，疑似即将複出

詹姆斯現身沙特引熱議！美媒調侃簽250億追夢直言為當老闆拉贊助

東契奇被罰出場引争議！裁判媒體各持己見：超巨該不該有球星哨？

東契奇和錫安誰更出色？美媒對比8項技能，才發現他被高估了

【終極解碼】東契奇如今的處境，神還原了當年詹姆斯為何會離開騎士

唐佳麗回應：中國女足亞運會大名單，水慶霞或為固執買單，霸氣！

體談 | 還以為随便打打就能奪冠，美國男籃稱霸世界的美夢該醒了

靜觀NBA | 裡夫斯和這類拼圖強在哪？

美國丢牌衆生相：科爾臉色鐵青全隊沮喪狄龍狂喜高舉國旗大笑

救贖之隊2.0要來了？一文讀懂詹姆斯招募衆星内幕夢之隊勢要在巴黎雪恥

中國16歲中鋒未來可期：排名升至同屆第30 三年後或參加NBA選秀

人氣爆棚！歐文開啟中國行大量球迷接機無愧NBA頂級巨星

紙貴洛城|湖人球星考古：最佳配角“袋鼠男孩”吉姆·波拉德！

5年1.9億即将到期！克萊盼望終老勇士：這回他能簽下多大的合同？

三大新星未來沖擊5億肥約！年薪暴漲太狠：最後一年超1.1億美元

風城雄起？芝加哥公牛隊的風色幻想

使用storm統計英文版&lt;&lt;聖經&gt;&gt;的詞頻

繼續閱讀

繼續閱讀

使用storm統計英文版<<聖經>>的詞頻