Structed Streaming 小案例

2018-06-17 23:50:00

1 首先是官網： http://spark.apache.org/docs/latest/structured-streaming-programming-guide.ht

2.注意官方文檔中的着重表示的地方例如（黑體加重，斜體等）

我們都知道spark streaming 是基于spark core API

那Structed Streaming基于的是什麼？

沒錯就是Spark SQL。 是以DataFrame/DataSet API 包括hive的一些functions 不要太好用哦！！！

下面這句話：“you can express your streaming computaion the same way

you would express a batch computation on a static data”

就保證了我們在實際開發時的成本比較低，當我們在開發一個的應用中包含流計算和批計算。

3.特點：

可擴充性，容錯性（這都是必備的好嗎？）
精确的一次語義
低延遲

4.關鍵點：

Continuously processing

databricks的blog上這篇文章寫的也很好

https://databricks.com/blog/2016/07/28/continuous-applications-evolving-streaming-in-apache-spark-2-0.html

5.做到了端到端

延時1ms時能保證至at least one 的語義
延時100ms左右時，能做到 exactly once。

6.然後就是流與其他的各種join， watermark的引入，總之和flink 互相發展促進。

Finally:最後貼一個小的案例：

object testSSApp extends App {

  val spark: SparkSession = SparkSession.builder().appName("baidu").master("local[2]").getOrCreate()

  //  結構化流
  private val read = spark.readStream.format("kafka")
    .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
    .option("subscribe", "topic1")
    .option("maxOffsetperTrigger", "1000000")
    .option("kafkaConsumer.pollTimeoutMs", "1000")
    .load()

//讀取的kafak 資料為json格式

  val result = read.selectExpr("CAST(value AS STRING)")
    .select(
      get_json_object(col("value"), path = "$.uri").alias("uri"),
      get_json_object(col("value"), path = "$.market").alias("market")
    ).groupBy(window(col("timestamp"),"5min","1min"),
    col("shop"))
    .agg(count("market").alias("uv"),
      approx_count_distinct("uri").alias("pv")).select("*")

  val query = result.writeStream.trigger(Trigger.ProcessingTime(10000)).outputMode("Update")
    .format("console").start()

//這裡展示以console輸出，實際中是回寫到kafak或者外部存儲。

  query.awaitTermination()

}

Structed Streaming 小案例

繼續閱讀

underscore 模闆标簽修改。

Ajax——模闆引擎

使用underscore的template自定義模闆

underscore模闆功能的使用和學習

JAVA高效程式設計指南

關于SQL語言

SQL語言基礎：常用的資料查詢語句

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

七牛雲-C#SDK-上傳-前期準備

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

neo4j之cypher使用文檔

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

vue-cli簡介（中文翻譯）

sqlServer根據經緯查距離

Ajax發送和擷取json資料到Spring mvc 1.spring mvc後端2.web前段

JSONObject包導入異常 java.lang.NoClassDefFoundErrorweb項目的導入包的問題