天天看點

首次加入雲栖大會的Flink專場,究竟都講了啥?

     導讀:9月19日,雲栖大會的Flink分論壇,在杭州正式開幕。今天是雲栖大會的第一天,據悉,這也是雲栖大會首次加入Flink的論壇,足見阿裡對于Flink前景的看好與重視。本次Flink分論壇,除了阿裡巴巴的嘉賓外,論壇也邀請了Data Artisans的聯合創始人,Flink的開創者和發揚者同台,共話Flink的前世今生。

  做大資料絕對躲不過的一個熱門話題就是實時流計算,而提到實時流計算,就不得不提 Spark 和 Flink。作為一款為分布式、高性能、高可用、高精确的資料流應用而生的開源流式處理架構—— Flink ,2016 年左右開始進入大衆的視野并逐漸廣為人知。

  Flink 憑借更優的流處理引擎,同時也支援各種處理場景,成為現如今如今正流行的的 Spark 最有力的挑戰者。而今天演講的會場上,多位嘉賓直接以‘下一代大資料計算引擎’的表達來宣傳Flink,究竟看重了Flink哪些過人之處呢?

蔣曉偉:下一代大資料引擎展望

                                                                                            蔣曉偉(量仔)  阿裡巴巴 研究員

   蔣曉偉認為Flink新的發展方向有兩個。第一個是在傳統資料處理領域:包括批流統一、機器學習、以及如何把AI workload融合進來;第二個是Flink和微服務的技術融合創新,進而為線上服務領域帶來新的變革。這使得Flink在生态上,也會擁有大的想象空間。

  對比Flink, Spark也有流批統一的概念,但做法與之大有不同。Spark是基于批處理做流處理,并且Spark在架構上先天不足,導緻其在性能上的提升舉步維艱。同時,天然批處理為主的架構為Spark進一步提高吞吐量帶來巨大障礙。而Flink的批流統一,從另外一個方向去看,是将流作為一切計算的基礎。這個方案與Spark相比,最本質的差別在于:第一, Flink是天然的流處理引擎,允許其在流上做到極緻;第二,在流上做批,架構上允許把批處理也做到極緻。

  

Aljoscha Krettek :Apache Flink的前世今生

      

Aljoscha Krettek     PMC of Apache Flink/ Co-Founder at data Artisans

  對Flink熟悉的人應該都知道,Data Artisans 是由Apache Flink創始者們成立的商業公司,他們上司并見證了Apache Flink的發展。在會上,Data Artisans的聯合創始人,Apache Flink的PMCAljoscha Krettek以‘The Past, Present, and Future of Apache Flink’為題,對Flink的前世今生作了系統的闡述。

  ‘流處理仍在不斷發展和變化,這使得很難跟上發展的步伐。 處于流處理技術的最前沿,Apache Flink的發展反映了許多這些發展,并且仍在繼續這樣做。’‘這就是我們用Flink 1.5(2018年5月)解決的問題,其中包括對Flink分布式架構的完整修改。新的分布式架構充分發揮資源彈性并動态改變應用程式并行性。此外,它大大改善了Flink的集裝箱內建。

  在部署方面還發生了什麼?随着ProcessFunction的引入,我們允許在Flink之上開發資料驅動的應用程式。但是,在執行它們時,它不像是啟動一個簡單的應用程式,因為需要操作Flink叢集。我們希望通過使應用程式成為Flink的一等公民來改變這種狀況。

王紹翾:批流統一的SQL計算引擎

  王紹翾(大沙)  阿裡巴巴 資深技術專家

  Flink在建立之初,就憑借其可以優雅支援多種計算模式的架構,被業界認為具備先天優勢,這也是幾年前阿裡巴巴選擇Flink引擎的一個重要原因。如今阿裡憑借其領先的技術水準,持續優化Flink在批計算處理方面的性能,使批與流之間的界限日漸消弭,真正實作批流統一。

  三年前,在内部啟動Flink時,因其開源産品的特性,很難滿足阿裡大體量的特定場景需求,為了将Flink在阿裡巴巴真正運作起來,阿裡巴巴實時計算團隊做了大量的優化,并命名Flink在阿裡巴巴内部的版本為Blink。Blink在疊代優化的過程中,也在不斷向社群捐贈代碼,真正做到“取之開源,用之開源”。

  目前,阿裡巴巴的實時業務場景,從搜尋到廣告、資料平台、安全等等。所有大的場景都是基于阿裡巴巴内部版本Blink展開,同時通過Stream Compute産品在阿裡提供公共雲服務。在Flink Forward上,阿裡為Flink提出的批流融合新突破,這也是架構上的一個新方向,并已經得到了初步的成果和驗證。

  此外,王紹翾也透露:Flink Forward過去隻在德國柏林、美國舊金山舉辦。今年将由阿裡巴巴作為獨家承辦方将這一盛會引入中國,于今年12月20日在北京落地,共建生态。

  李曉昱:Flink在阿裡巴巴電商業務中的應用

  李曉昱(言柏)  阿裡巴巴 進階技術專家

  言柏從名額計算、資料同步、監控報警、場景複現四個典型場景介紹了Flink在阿裡巴巴電商業務中的應用,同時通過表、資料、代碼讓大家對流計算&實時大資料開發有更直覺的感受。另外言柏表示為了讓集團外部使用者盡快享受到阿裡内部的技術經驗,目前數加團隊和Flink團隊正在進行更深入的合作,預計下半年在阿裡雲DataWorks産品中将釋出StreamStudio,為阿裡雲使用者帶來可視化&代碼化的Flink程式設計環境,讓實時大資料開發變得更簡單更有趣。

  景麗甯: Flink在雲端,如何快速應用實時計算服務

  景麗甯(硯田)  阿裡巴巴 進階開發工程師

  景麗甯着重介紹了流計算在雲端的便利,主要圍繞展開:

  自建叢集的痛點:硬體維護成本高,軟體選型困難。

  雲端: 提供一站式的流計算服務,從開發到運維,提高開發,運維效率,降低維護成本。

  未來雲端: 提供自動擴縮容,進一步降低使用者成本。開放 open sdk, 使用者可以基于流計算搭建自己的平台。

  當你選擇自己動手搭建服務的時候,你就需要從這種圖中選出你需要的元件。因為大部分公司都是業務驅動,而業務上往往要求快速實作,這樣就很難有足夠的時間留給開發人員在技術選型上可以精挑細選。常見的做法是,大家通過混迹于各個社群、論壇,通過别人的介紹和項目的活躍程度等名額,匆匆對比之後就做出選擇。先把業務搞上去,其他的慢慢再說,船到橋頭自然直,遇山開山,遇水涉水。但是一旦真的遇到棘手的系統性問題,迫于人力有限,為了解決問題,采取一些 比較trick的操作,比如,要是系統越跑越慢,那就定時重新開機一下。但是這種解決辦法,都是治标不治本。系統問題甚至會讓你的業務系統變得異常複雜,難易維護。導緻維護的成本異常高,比如常見的 bi 系統,因為無法實作 sql 化,是指需要給bi 分析師專門配備開發人員将 sql 翻譯成代碼。

  陳守元:阿裡對于下一代大資料計算引擎的思考

  陳守元(巴真)  阿裡巴巴 進階産品專家

  我們認為,第一代大資料計算引擎以Hdadoop為代表,當然也包括了Storm,第二代是Spark,下一代大資料計算引擎是Flink,我們希望能夠用Flink統一解決Spark之前沒有解決的問題:

  1.Spark期望一套軟體覆寫主要計算模型,但實際覆寫不完整

  2.穩定性/調優/排錯 仍未解決

  3.中文資料/社群嚴重缺乏,未能形成有效組織

  盡管在當初選擇大資料計算引擎時,Spark無論是從熱度還是生态角度也許都比Flink更勝一籌。但從長遠考慮,阿裡看到其在架構上存在幾乎難以逾越的鴻溝,雖然Flink現在沒有Spark生态那麼火熱,但是Flink的先天架構優勢,加之諸如阿裡這些大廠的支援,相信Flink會開辟出一片新的天空,且走的更遠。

  現場花絮

  現場觀衆

  200人的會場,裡裡外外擠滿了聽衆,基本上屬于出來很難再進來的狀态。

  會場嘉賓合影

  專場附近的資料指揮中心,展示了各個論壇的實時狀況

  頂着大太陽在看着主會場直播畫面的人群

首次加入雲栖大會的Flink專場,究竟都講了啥?

實時計算 Flink 釘釘群