阿裡大資料SRE專家池楓：做Tesla，是因為傳統運維方式已不能滿足業務發展需求

4月20日20:00-21:30，一場别開生面的技術大會—— “運維/devops線上技術峰會”将線上舉辦。從網絡基礎架構實踐和演進，到同城容災架構剖析；從如何穩定、安全的使用雲資料庫，到企業如何在雲上安全加強最佳實踐；從阿裡雲專家了解的devops，到如何建構一個通用化的智能運維平台……不僅一一告訴你雲上的運維重點在哪、運維人應該如何思考，也手把手教你如何做。同時，對于處于轉型中的企業，我們也邀請了有代表性的網際網路公司來分享他們的親身體驗。

阿裡大資料sre技術專家池楓說，他希望tesla是一個創新、高效的自動化、智能化平台

池楓，阿裡大資料sre技術專家。2011年加入阿裡巴巴大資料sre團隊，見證阿裡大資料産品最快速的發展過程。先後負責阿裡hadoop、hbase、apsara、odps等産品運維，全程負責大資料運維自動化體系建設。曆時2年時間帶領團隊完成tesla智能運維體系設計，開發，落地，進化曆程。專注智能運維在大規模異構叢集下的場景應用，專注業務運維與智能運維結合後的轉型道路探求。

在4月20日20：00舉行的運維/devops線上技術峰會上，池楓将會分享《如何建構一個通用化的智能運維平台（tesla）——大資料sre實踐》議題。為此雲栖社群采訪了這位在大資料sre浸淫多年的技術專家。

以下是本次采訪内容：

雲栖社群：曆時三年，你帶領團隊建設了tesla智能運維體系，能聊聊什麼是tesla？為什麼要建設它？

池楓：先回答為什麼要建設tesla，這個還要從2014說起，那個時期大資料在業界初露峥嵘，阿裡巴巴内部大資料的業務也快速發展，産品種類，服務規模雙雙增長，并且産品的疊代周期極大縮短，各種異構的叢集級大資料産品造成了多種多樣的運維模式，給我們團隊帶來了相當大的壓力，大家明顯感到傳統的運維方式，已經遠不能滿足快速的業務發展。如何破解，我們選擇建設一個能夠長期發展的自動化平台，這就是tesla的由來。

什麼是tesla，我們希望它首先是一個創新、高效的自動化平台，還希望它是一個通過資料驅動由自動化向智能化轉變的平台，借助tesla體系的不斷完善提升我們運維的價值。

雲栖社群：tesla開發過程中，有沒有遇到什麼困難，又是怎麼解決的？

池楓：tesla的建設過程對我們整個大資料sre團隊來說是一個非常巨大的機會和也是挑戰。碰到的許多困難，最重要的一塊就是團隊内部産品研發的組織模式，換句話說我們對傳統工具團隊開發模式進行了優化，tesla 分兩部分的研發人員完成，一部分提供架構級别的服務開發，另一部分提供了業務邏輯實作的服務，我們摒棄了傳統b2c模式，采用了c2c共享協作的開發模式共建我們的tesla平台。這種方式使tesla從無到有，從小到大，發展的速度大大加速，疊代的目标更加明确，品質控制更容易達成，也保證我們以現有的人力做到今天的規模的。

雲栖社群：tesla能解決哪些典型問題？哪些地方可能還需要繼續完善？

池楓：tesla 面向的場景都是最典型的的運維營運場景，我們産品幾乎打通了所有關鍵的運維環節：例如應用環境管理，變更操作執行，需求智能處理，事件關聯處理，故障分析診斷，運維資料挖掘。我們希望沉澱運維經驗的決心非常堅決，因為我們認為這種沉澱好比是對運維的格式化存儲，隻有格式化的資料将來才能被機器所學習和挖掘，積累這樣的資料的能力是智能化的關鍵。

所有我們正在建設的産品都仍然有很大的進步空間，尤其是與智能化相關的如：問題的分析、故障的預測、行動的決策，對我們來說仍然處在探索關鍵期，能夠給與我們借鑒和幫助實踐特别少，是以這塊今年我們集中了團隊中最優秀人員去整合我們運維、營運資料，期待在這塊有突破性的成果。

雲栖社群：目前tesla内部的應用情況是？

池楓：tesla目前服務所有的阿裡大資料産品研發團隊和運維團隊。産品線覆寫odps ，hbase ，ads，galaxy，tt，datahub等集團核心的大資料産品，覆寫上十萬級業務伺服器規模，營運站點pv 5000+p/日，平台自動化事件:近百次/日，自動化時間近萬分鐘/日（此處的近萬分鐘是指單人順序執行需要的耗時），是整個部門的運維工作的根基。

雲栖社群：tesla未來的發展計劃是什麼？

池楓：關于tesla未來發展方向，近1年的思考中已經非常明确：就是成為更+的智能化。

我們不僅希望在tesla上運維事務絲滑平順，而且希望自然人對整個業務産品線的決策影響越來越少，所有的服務運作，更依賴于對格式化資料的分析驅動。具體到落地詳細的計劃，我們會分兩個方向齊頭并進，分别為“内和外”，對内我們強調資料倉庫的完善，運維模型訓練，借助内部海量的資料資源完成我們智慧化演進。對外我們會借助大資料專有雲項目的推進tesla在私有雲場景的企業化支援能力，并且我們會在2017年完成tesla核心子産品內建版本的開源目标，希望能推動運維智能化做一份貢獻。

雲栖社群：你認為一個完善的大資料運維自動化體系應該具備哪些特征？其工作中的重點、難點是什麼？

池楓：“完善”的定義各有所見，我了解一個體系必須發源于其服務的業務産品，能夠靈活适應“變”和快速的實作“通”。抽象不同産品中各種運維環節，具備階層化服務産品結構，能夠連接配接資源、事件，人各個次元的産品體系。

如何設計一個能夠兼顧多種異構的大資料産品的運維平台體系是首先要解決的重點，另一個是人的因素，傳統ops需要轉型，ops+dev+data 人才的聚集是完成智能化運維的充要條件。

想和阿裡大資料sre專家池楓面對面技術交流？快拿起微信掃碼吧！

池楓演講提綱：

大資料sre 運維産品的發展變遷；

智能運維産品體系理念；

分享核心套件的設計思路，使用場景及案例展示；

對自動運維生态的生态的展望。

聽衆收益：

複雜運維事務自動化沉澱方案。

智能運維模式的實踐案例。

阿裡大資料SRE專家池楓：做Tesla，是因為傳統運維方式已不能滿足業務發展需求

繼續閱讀

ansible配置檔案說明及ad hoc指令

puppet基礎學習(二)puppet基礎學習(二)

vsftpd dead but subsys locked 的解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

ubuntu14.04下安裝hbse1.0.1.1

最小化DevOps自動化流程(Golang)

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

nginx 安裝錯誤資訊解決

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark