Linux環境下Apache Storm的使用：爬取指定網站資訊并将資訊存進redis和kafka，再将兩者讀出的資料作為spout，分别對兩者的資料詞頻統計、行數統計、字數統計，并将所得結果存入redis記憶體資料庫，并觀察這兩個情況的時延、吞吐量。注意：兩個資料源兩個拓撲。

1．環境搭建
- 1.1安裝JDK
- 1.2安裝eclipse
- 1.3 安裝、打開zookeeper服務
- 1.4安裝、打開Kafka服務
- 1.5安裝、打開Redis服務
- 1.6 安裝、打開Storm服務
- 1.7 添加maven依賴
2．程式使用說明
3．運作截圖
4．總體設計
5．詳細設計
- 5.1 C00Main.java
- 5.2 C10Crawler.java
- 5.3 C20KafkaProducer.java
- 5.4 C21SaveToRedis.java
- 5.5 C30Topology.java
- 5.6 C40KafkaSpout.java
- 5.7 C41RedisSpout.java
- 5.8 C50SplitBolt.java
- 5.9 C51WordCountBolt.java
- 5.10 C52RowCountBolt.java
- 5.11 C60WordFrequencyBolt.java
- 5.12 C70ReportBolt.java
6．存在問題
7. 源代碼
- 7.1 C00Main.java
- 7.2 C10Crawler.java
- 7.3 C20KafkaProducer.java
- 7.4 C21SaveToRedis.java
- 7.5 C30Topology.java
- 7.6 C40KafkaSpout.java
- 7.7 C41RedisSpout.java
- 7.8 C50SplitBolt.java
- 7.9 C51WordCountBolt.java
- 7.10 C52RowCountBolt.java
- 7.11 C60WordFrequencyBolt.java
- 7.12 C70ReportBolt.java
8. 項目位址

1．環境搭建

1.1安裝JDK

從官網下載下傳合适的安裝包，這裡使用的是安裝包是jdk-8u271-linux-x64.tar.gz，注意一定要使用此版本，否則無法正常使用storm
解壓tar -zxvf jdk-8u271-linux-x64.tar.gz
設定環境變量：打開檔案vim /etc/profile并在最前面添加(其中第一行的路徑為jdk檔案解壓後的路徑)

export JAVA_HOME=/usr/lib/jvm/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib  
export PATH=${JAVA_HOME}/bin:$PATH

使用source /etc/profile使修改後的檔案生效（最好重新開機電腦）

1.2安裝eclipse

由于使用jdk8，導緻原來使用的9月份版本的eclipse無法使用，是以從官網上下載下傳之前釋出的版本，解壓後直接打開裡面的執行檔案就可以了，這裡使用的安裝包是eclipse-java-2020-03-R-linux-gtk-x86_64.tar.gz。需要注意的是若是重新裝過jdk，可能eclipse項目使用的版本可能是之前的，需要在eclipse中修改過來。

1.3 安裝、打開zookeeper服務

官網下載下傳安裝包，這裡使用的是apache-zookeeper-3.6.1-bin.tar.gz并解壓
進入到解壓後的目錄，cd apache-zookeeper-3.6.1-bin
mkdir data，建立一個檔案夾
cp conf/zoo_sample.cfg conf/zoo.cfg，複制檔案，名稱一定要是zoo.cfg
vim conf/zoo.cfg，打開該檔案，并将裡面的dataDir的路徑修改為建立的data目錄
bin/zkServer.sh Start，啟動服務，若顯示STARTED則表示啟動成功

1.4安裝、打開Kafka服務

從官網下載下傳安裝包，這裡使用的安裝包是kafka_2.13-2.6.0.tgz
解壓下載下傳的安裝包tar -zxf kafka_2.13-2.6.0.tgz
切換到解壓後的檔案的目錄，cd kafka_2.13-2.6.0
最後再通過指令bin/kafka-server-start.sh config/server.properties啟動Kafka服務（在啟動kafka之前需要保證zookeeper服務已啟動）

1.5安裝、打開Redis服務

官網下載下傳安裝包，這裡使用的是redis-6.0.9.tar.gz并解壓
切換到解壓後的目錄
make
完成後使用./src/redis-server ./redis.conf啟動Redis服務即可開始使用

1.6 安裝、打開Storm服務

官網下載下傳安裝包，本次下載下傳的是apache-storm-2.2.0.tar.gz并解壓
cd apache-storm-2.2.0，進入解壓後的檔案
mkdi data，建立一個目錄
vim ./conf/storm.yaml，打開并修改配置檔案，如下圖，其中圖中的路徑為2.6.3建立的data檔案的路徑，注意各個字段中的空格

Storm/Redis/Kafka的使用1．環境搭建2．程式使用說明3．運作截圖4．總體設計5．詳細設計6．存在問題7. 源代碼8. 項目位址
bin/storm nimbus，啟動nimbus（在此之前必須確定zookeeper已經啟動）
bin/storm supervisor，啟動supervisor
bin/storm ui，可以啟動ui（可選），浏覽器輸入localhost:8888即可檢視相關資訊
jps，檢視是否啟動成功，若成功則會顯示Nimbus, Supervisor, QuorumPeerMain（zookeeper的背景程序）

1.7 添加maven依賴

在maven項目的pom.xml檔案中添加以下導入kafka、storm、redis、ansj相關jar包

<dependency>
			<groupId>org.apache.storm</groupId>
			<artifactId>storm-core</artifactId>
			<version>2.2.0</version>
		</dependency>
		<dependency>
			<groupId>org.apache.kafka</groupId>
			<artifactId>kafka-clients</artifactId>
			<version>1.0.0</version>
		</dependency>
		<dependency>
			<groupId>redis.clients</groupId>
			<artifactId>jedis</artifactId>
			<version>3.4.0</version>
		</dependency>
		<dependency>
			<groupId>org.ansj</groupId>
			<artifactId>ansj_seg</artifactId>
			<version>5.1.6</version>
		</dependency>

2．程式使用說明

在程式運作之前需要通過指令行啟動zookeeper/kafka/redis/storm服務，也就是實驗環境搭建部分的服務啟動，然後直接在eclipse中運作即可。而爬蟲獲得的資料在kafka中儲存在名為my_topic的主題、在redis記憶體資料庫中儲存的鍵值為my_key，而運作程式的結果則儲存在redis中鍵值名為my_count。需要注意的是當爬取不同的網站時，需要根據網站資訊的多少來設定休眠時長，設定過長會浪費時間；太短則會導緻服務一直重新開機，也會浪費時間，而且時間過短可能會使程式出錯。當沒有實時輸出統計資訊時就代表運作結束，但是不可直接強制關閉程式，否則會無法輸出最後的統計資訊，等到指定時間程式會自動關閉并在控制台輸出、儲存最後的統計結果。

3．運作截圖