實時資料處理也就這麼個玩法

2023-04-05 05:50:16

前奏：Storm實時處理架構（一）

hadoop 叢集搭建(一)

hadoop 叢集搭建(二)

hbase（一）僞叢集搭建

自從AI的概念火起來之後，不玩玩實時，而隻知道離線處理資料，似乎已經不滿足現在對資料分析的要求了，深感逗比的同時，哥們還是淺淺介紹一下實時需要掌握的技巧和核心點，架構圖請自己畫切。

技術支援：

python + logstash + kafka + storm + hbase ( mysql )+ zookeeper + springboot + js + css + 高德map插件

核心要點：

python 分析熱資料到 logstash 格式化灌入 kafka ，storm 實時分析資料落地 hbase 或 mysql， ui實時抽取實時資料表現到高德地圖中即可

實時資料處理也就這麼個玩法

心得：面對實時性較強（比如實時推薦、實時展現），而非離線操作的業務，甚至可以幹掉hbase以直接面向結果的方式進行，但是storm 處理完的結果必須先落地到某個地方，再交給機器學習，如果不想落地咋辦？此時可以采用 spark streaming & ml lib s[圖檔]park sql 結合的方式進行流水式推薦，待下回分解。

想對AI有所建樹，不學python，隻是粗略掌握一套别人提供的架構，粗淺的開發開發就想裝個逼，哥們介意還是别在這上邊浪費時間了，

基于一通百通的原則，學資料架構會那麼一套兩套就差不多了，最重要的還是語言基礎和算法分析。

歡迎互粉交流春叁十娘

實時資料處理也就這麼個玩法

實時資料處理也就這麼個玩法

繼續閱讀

Kafka：Topic概念與API介紹

Doris SQL日志審計部署，以及sql收集輸出kafka，後續血緣分析

Flink Kafka Doris實戰demo

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Kafka 和 EMS 消息批量 ack 的實作

Spark流式分析系統實作流式實時日志分析系統

Spring Cloud整合Sleuth，當請求完成後，Zipkin沒有鍊路資訊

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

初識Apache Storm

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結