天天看點

2016年北京中國雲計算技術大會見聞

筆者有幸受邀請參加中國雲計算技術大會,感謝主辦方csdn。此次大會有3天,第一天全部為topic,随後分為了若幹個場次,有《container技術峰會》、《大資料核心技術與應用實戰峰會》、《雲計算核心技術與架構》,第三天為《中國spark技術峰會》、《openstack技術峰會》、《亞馬遜aws專場》,筆者基本一直在《大資料核心技術與應用實戰峰會》與《中國spark技術峰會》場次。

由于筆者關注在大資料方面,對openstack、container沒有去聽。本文主要走馬觀花幾句話講述下筆者聽的一些場次的見解,講述的是什麼,如果需要詳細了解,請自行google或者聯系演講嘉賓。

ps:北京的天氣還是可以的

2016年北京中國雲計算技術大會見聞

基本就是各家雲廠商在做廣告

《開啟共享經濟雲計算時代》講述了怎麼利用共享經濟做cdn,簡單的講就是利用大家閑置的資源做共享的cdn,跟p2p很類似。不過 陳磊 說還有點不一樣,p2p是使用者觀看的時候共享,他這個是無時無刻的。有三點認為的優勢:無限節點、sdk、共享經濟。其它兩個好懂,特别是對于sdk,陳認為sdk有效解決了延遲、卡頓等問題。

《微軟智能雲的核心dna》這個說白了就是來講雲計算,介紹自家的各個産品。特别提到了對于開源的支援,linux已經超過了50%的主機,開源閉源沒有界限,微軟不會封閉。

《企業it基礎架構在雲端如何變革》 這個就是百度來介紹百度的産品了,基本就是介紹了一圈産品。其實各家雲計算場景都有在做的。有幾個觀點:1、人工智能引領未來。2、對企業分為 微型、中型、大型分别給予支援

《雲時代,我們用技術如何改變世界》 騰訊的同學,從彙編、進階語言一直講到到高内聚、低耦合,最後引出了微服務。

《圓桌論壇:微服務在下一代企業架構中的實戰》 讨論微服務,主要的觀點1、微服務并不是一個新的技術,更像一個最佳實踐 2、docker等容器技術的出現催出了這種最佳實踐。

《evolution of yarn scheduler》 naganarasimha garla 來自印度,主要講述了yarn排程器的發展曆程,從fifo一直到接下來的異構機型,隔離等技術。

《京東雲探秘:從實踐者到服務者》 基本說京東以後 電子商務、金融、雲計算 是三大基礎,跟阿裡好類似的。對于雲計算不評價。

筆者主要在《大資料核心技術與應用實戰峰會》

2016年北京中國雲計算技術大會見聞

《大資料時代的資料倉儲實作技術實戰》 百度同學講述的。主要對比了hadoop、mpp的異同,我感覺有點片面,比如hadoop的容錯性、擴容簡單基本沒有講述。最後當然也介紹了百度雲關于大資料的方方面面。

2016年北京中國雲計算技術大會見聞

《京東資料倉庫3.0時代:面向服務化的大資料平台與實戰》 這個基本是在講京東内部的hadoop生态平台的建設,會遇到的問題。跟2013年阿裡雲梯很類似。基本為:1.0時代是用資料庫來做資料倉庫; 2.0采取了hadoop的技術,也做了一些建設,不過基本處于沒有組織的狀态 ; 3.0在2.0的基礎上,更多的是資料鍊路的整理、資料品質的控制、資料平台等上遊産品的建設。

《小米大資料平台與開源技術應用》 常冰琳 小米雲平台軟體工程師,就是在講kudu的,特别畫了一個處理的象限,預計在不久會釋出kudu的穩定版本。

2016年北京中國雲計算技術大會見聞

《apache flink: stream engine beyond batch》李呈祥 萬達金融 ,flink就是批基于流,spark就是流基于批,講述了 failover、at least once等方面的處理方法。

《青雲qingcloud大資料雲平台基礎架構實踐》 是一個系統工程師講述的,特别強調磁盤io的性能會影響整體的性能,并且想在一個自研發類似docker上實作,直接連接配接到實體盤上。 不評價。

《hadoop yarn在異構環境下應用與實踐》 董老師講述的,主要講述在yarn裡面怎麼去部署了一套線上的系統,例如利用lable機制排程container到gpu的機器上。

筆者主要在《中國spark技術峰會》,spark2.0即将釋出,一些功能還是很期待的。

《spark and yarn: better together》邵賽賽 hortonworks技術專家,講述了spark在yarn上怎麼去排程,例如:目前 dynamic resource allocation 的實作及一些缺點。在共享環境中,yarn還是spark使用的首選。

2016年北京中國雲計算技術大會見聞

《spark streaming 在騰訊廣點通的應用》 林立偉 騰訊進階軟體工程師,來自廣點通業務線,特别提到了業務線同學面對spark的代碼在不能修改的情況下,怎麼去修改功能。比如,修改位元組碼。

2016年北京中國雲計算技術大會見聞

《elasticsearch 與大資料》 曾 勇 elastic開發工程師與布道師,講述了elasticsearch 與大資料的結合,elasticsearch for hadoop這項目。當問到自身es是否支援大資料分析時,說也會考慮。

2016年北京中國雲計算技術大會見聞

《dataset in spark sql》範文臣 apache spark committer,databricks 軟體工程師。dataset就是有類型的dataframe。跟sql、dataframe的差別如下圖:

2016年北京中國雲計算技術大會見聞

《利用elk來進行hadoop叢集負載性能監控》 王 棟 分布式系統元件管理與性能監控資深專家,

elk(elasticsearch + logstash + kibana) ,利用elk收集了yarn、job運作等日志,在通過kibana可視化展現出來。

2016年北京中國雲計算技術大會見聞

《spinach: spark sql之上的快速互動式查詢引擎》 程 浩 英特爾亞太研發有限公司spark core團隊研發經理,spinach是intel内部做的一個poc項目,還沒有對外釋出。基本的思路就是在oss、hdfs之上做一個index層加速查詢,使用者可以即時建立index,再查詢。期待早日釋出

2016年北京中國雲計算技術大會見聞

《spark 實時計算》 連 城 apache spark & apache parquet committer,databricks 軟體工程師,spark2.0的新功能structured streaming,streaming跟batch後續會統一一套api,引入了trigger等概念。

2016年北京中國雲計算技術大會見聞

資訊量還是比較大的,如果聽得明白,還是需要一定的基礎的。三人行必有我師,在跟大家交流的過程中,也學習到了很多,特别是跨領域交流。比如跟openstack、container的同學。大緻總結下:

雲廠商,阿裡雲、百度雲、騰訊雲、青雲等各級小廠商都有參加會議,雲化也慢慢也是一個趨勢。雲上的一些應用也基本類似,後續是拼服務、拼技術能力的競技場。

因為阿裡、百度、騰訊 都走在使用大資料技術及應用的前面,特别是在技術的嘗試使用上,目前京東、美團等第二梯隊的公司也有自己的大資料團隊,包括基礎的。一些小的公司也還嘗試。

iass、pass在市場競争下,會越來越難存活,創業還是建議做某個行業的垂直類的服務較好,平台的機會越來越少,也越來越難存活。

新的技術,spark2.0、flink、kudu基本在一些大的公司使用或者嘗試,中小公司(技術團隊100以下的)在大資料方面的投資基本還是在用hive、hadoop,也有一些嘗試了spark1.x的功能。

繼續閱讀