
講師介紹:
首先說一下我個人,我叫王建(銘智)。
不能說是第一代做運維的,應該算是1.5代了,因為2004年開始做運維行業,之前做的比較雜。現在很少看到SA、PE這種,像我以前什麼系統工程師、應用工程師、開發監控、日志分析、架構,還有些海外的運維,這一整套基本上是我之前做的比較雜的。2015年的時候加入阿裡,這三年一直是聚焦于在阿裡巴巴的主機系統安全領域,同時也關注于運維效率。從某種意義上來講,我見證了整個阿裡巴巴主機演進的過程,是以接下來給大家分享一下這方面的内容。
今天的内容主要分為四部分:
- 第一、現狀介紹
- 第二、主機安全管控演進
- 第三、思考與總結
- 第四、未來
1. 現狀介紹
阿裡擁有成千上萬的業務群分布在全球各地,在運維行業裡70%到80%的業務場景在阿裡都可以見到。阿裡現在的業務已經不能說是一家公司或者集團,阿裡現在的叫法是“經濟體”。
經濟體一般是一個國家或者一個地區才有經濟體,從這方面我想說的是它的業務形态已經不單單是家公司了,業務形态非常地複雜。這是對外公開的一張圖,它是一個生态型的,涉及到方方面面。是以說在這種場景下對于安全的要求挑戰也是蠻大的。
阿裡擁有國内領先的百萬規模主機體量,并且這個量級每年還有很大幅度的增加。這塊我也問過國内的同行,私下了解過,目前的主機規模來說在國内還是領先的。這種場景下對于我們日常的安全管控還是挑戰很大,不是一台兩台,幾百台幾萬台,是分布在全球總體管控的。
這塊大家之前可能不太清楚,我們每年要面對國内外的審查特别多,我這邊和他們打交道是比較多,我們的安全有一部分來源于他們,因為這個監管不合規會帶來很多業務的障礙,比方說像ISO20071,每年都要來審查,SOX404,以及SOC2、C5、PCI-DSS、ITGC等。這審查剛開始我們都是被動的,是以這也是促使我們的動力。監管合規對我們來說是非常重要,銀監、證監沒事就要過來查一下。
上午聽了一個同行的将說,騰訊也有一萬五千人參與編碼,在阿裡的生産管理也有幾萬的技術人員參與,大家可能都是分布在全球各地,那這裡的風險也是需要我們統一來把控。
阿裡的三大戰略,全球化、農村、語言,在全球化過程中業務範圍越大,安全這塊也必須要跟得上,對于我們的挑戰就是邊界問題、分布、人員辦公帶來的不确定性。
像阿裡很多的應用已經是作為國民應用了,成為國家關鍵資訊基礎設施,每次遇到大問題的時候社會反映都是比較強烈的。剛才講了第一部分,主要是業務規模化的場景,包括全球化給整個阿裡經濟體帶來的威脅。
2. 主機安全管控演進
這塊我們主要分為這麼幾個階段:
主機安全,這個概念可能大家了解的不一樣,主機安全到底包括哪些内容每個企業可能定義的不一樣,對于阿裡來說整個體系裡面包括正向管控措施、逆向監測措施。在整個發展過程中主要經曆了這樣幾個階段,我剛接觸的時候其實很多現狀和之前的差不多
後來經曆了系統化,就整個管控體系的落地;
體系化主要是資料關聯、組合拳、正逆互動,最後達到安全閉環,然後體系化和智能化是現在在做的。
大家都會經曆過這個階段,注冊密碼可能随便給,比方說大家為了友善或者好記,是有關聯含義的。體系化設計、生命周期管理,包括一些人員的操作,在操作過程中人員的一些誤操作,能不能在這方面做一些防範,難免大家有時候狀态不好,這時候能不能有措施防範。權限,像有人私自跨賬号通路,對于重點系統的保護,這些問題其實都有。其實阿裡之前的狀态也是這樣,我剛接手這塊也是有很多問題的。
下面說一下在整個建設過程中參考的依據,這應該是大家比較熟悉的,控制論在各行各業都有應用的,其實很簡單,輸入輸出裡面兩個東西,控制者和受控對象,用今天的話來說受控對象就是主機(伺服器),控制者就是管控系統,管控系統對受控對象進行管控。其實在沒有接觸這個理論之前,大家都喜歡做正向管控建設,能管控它就好了,但其實會忽略下面的回報。就說如何驗證你前面做的有沒有效或者是否全部覆寫,這個回報就很重要,就說能知道有沒有人在破壞你這個規則,有沒有人逃逸在這個規則之外的。
下面就是權限模型,一個是RBAC一個是ABAC,我們是把這兩個有機的結合在一起。
業務的全球化導緻整個管控也是要全球化,比方說現在一些堡壘都是全球化部署,不是國内的戰略,包括其他的監測也直接是全球覆寫。
下面就講一下過程,0到1,正向管控系統建設,以及從入職到離職的全生命周期管理。在這裡面還包括一些資訊化,安全的東西光靠制度肯定是不行的,是需要系統來承載來實作的。
資料化,阿裡最大的特點是在于基本所有的資料都會存項,這在阿裡是作為保衛的資源,阿裡是所有的業務資料化,所有資料業務化。這是說的整個正向建設的過程,剛才說的控制論圖中正向建設的過程,當然在建設過程中也是一點一點的,并不是說一下子全部弄出來。
下面我們說一下回報過程,回報整個體系建立完之後導緻體系化.
1到N。這主要包括兩部分,逆向監測體系建設過程,如何評價現在是安全的,有一些手段能監測到它是否是安全的,哪些正常,哪些違規,或者哪些不在預期之内的操作,這是需要我們去建構的。今天來說反向監測體系是非常重要的,必須要有感覺能力。逆向系統建設完之後,為什麼說體系化,是和前面的産生關聯,監測發生異常,前面去攔截阻斷,這些管控手段是一整套體系中完成的。它是安全的閉環,不是脫節的,這是這幾年我們一直在做的。
這是威脅治理的情況,這張圖是真實的,前面有很多還是振蕩波動的安全威脅,到後面就很平穩,這是最終的效果圖。
剛才和大家簡單回顧了一下我們安全管控的過程,這裡面沒有細講,因為也是第一次和大家講這個,我們也希望慢慢地把裡面更細的部分拿出來給大家分享,整個管控的過程說實在也還有很長的路要走。
3. 思考與總結
運維的本質或者運維的核心大家可能放在這幾個方面,到底哪個優先級高、優先級低,最終肯定是歸在其中的一部分。
每個公司對這的看法是不一樣的,初創公司可能更多關注的是效率和成本,當達到一定規模的時候安全和穩定性就會提出了,像阿裡的目前規模體系下不能隻關注效率和成本,穩定性是我們的重中之重,牽一發而動全身,稍微有點故障就會引起社會很大反響。
安全級部分,咱們在上一頁的時候安全是獨立的部門,從我個人看來安全它和其他的關系是非常密切的,并不是一個獨立的部門或者獨立的業務形态,安全它是可以為穩定性服務,減少很多的入侵或者破壞這種問題。安全可以驅動效率的變革,之前我們經常說安全和效率是沖突體,越安全可能效率越低。
大家經常安檢就知道,北京兩會期間安檢特别嚴,要花上平時好幾倍的時間,現在很多像生物識别、人臉這種也可以。安全可以帶來成本的節約,我最早做的是網遊行業,大家知道網遊行業是暴利行業,如果你剛上線是熱門的話會遭到攻擊,如果這時候能解決安全問題會節約很多的成本。像網遊公測當天受到攻擊的話那影響還是蠻大的,直接決定一個産品的成敗。
安全手段如果能跟得上,它可以帶來一些正向的成本。
我們普遍認為安全×效率=常量,我今天想說的不是上面這個,而是下面的安全×效率=常量×N,我們要通過安全機制的更新以及安全機制的變革來提升效率。過去各種驗證,現在生物識别這麼發達,那是不是可以引進來,帶來一些體驗和效率的提升。
安全不能被企業忽視,安全現在很好,曾經有個朋友也問我,他遇到一個問題,他在企業裡是做安全的,但就有個擔心說怎麼在企業中做安全能被認可。其實我的看法是這樣子,安全在國内很多企業中不被認可的,其實是很難被認可的,這是一個共識。可能國人的一些共性吧,條條框框是會被束縛,國人是不太願意被束縛的,很多企業會首先選擇效率,這是客觀的現象。
第二點作為安全工作者,安全這塊真的要反思給業務帶來什麼價值,最後決定你被認可的是到底帶來什麼價值,并且這個價值要能夠持續營運。如果在一個企業裡你做了很多的業務價值,最後還是不被認可的話,那我隻能說這企業就不需要安全,我的建議說你可能需要換一家機關。确實是有這樣的企業,它就是不重視這塊,換句話說他就是沒有安全的需求。就像電商一樣,刷單刷評分這種,時間一長平台的信用就會受到影響。
還有個好處,現在安全環境是越來越好了,去年《網安法》頒布,現在出現問題企業要擔責,業務主管也要擔責。還有歐盟的GDPR,這也挺厲害,我相信挺多有海外業務的都會涉及到。GDPR很厲害,如果違反了資訊安全最高罰兩千萬歐元,這個量是很可怕的。下面還有一些監管合規,現在國家的監管力度是越來越強,包括像未成年微信、阿裡的金融體系,監管都是定準的,就在這種促使下安全還是向好來轉變。
安全不能拖業務後腿,你在一個企業裡做安全工作最差是這樣的。
安全不能停留在制度上,員工伺服器上不能這樣不能那樣,我相信現在很多還有這個東西,是以說在整個體系上我覺得大家不要用制度來執行,更多的還是要用政策和系統化來保障,這我們也在做很多的嘗試,把以前制度上的東西變到實實在在的系統中。
安全的最高境界是無處不在,而又毫無感覺。安全措施不應成為使用者操作的障礙,而是使用者信心的保證。會不會因為忽略或者不小心導緻的一個故障,我說的“安全”和外面的“安全”不一樣,運維操作安全也屬于“安全”這個體系。是不是使用者無意、有意的威脅把它做了,就使用者不用考慮風險的問題,系統會有保障,這方向也是很好的,當然這裡面也需要做很多事情。
這是阿裡的九字方針,“輕管控、重監測、快響應”,現在管控要放松,你可以幹很多事情,但背後有一套很完善的監測安全保障機制,在有問題的時候能夠快速發現、快速響應,把重心放在後面了,而不是說之前就給你設很多條條框框,網際網路業務條條框框太多,那很多機會、風投就過去了,更多是後面的監測。
這裡面是安全的一些原則,我相信大家都聽說過,集中原則、按需原則、最小權限原則。建設過程中最大的問題是做完之後别自己出現問題,要有一些容災容錯的考慮。使用者權限随着使用者的身份變化自動變動。
安全裡面還有兩個概念,safety和security,這兩個我們都做了,做安全的人都能分開這兩塊的差別,其實我們做的是兩塊的綜合體。
這是我們之前做的一個主機系統安全成熟度模型,L1是人工管理為主,有安全制度,無系統支撐,L2是安全制度完善,有部分數字化安全支撐系統。L3現在向L4完善,那L4強調的是無感、智能化的。
4. 未來的想法
未來的安全剛才也提了是無感,對使用者一定要無感,這也是我們未來要不斷思考的問題,如何做到使用者無感但安全能力沒有下降。第二個階段是谷歌裡提的比較好的,叫“零信任模型”。
大家可以随時随地在任何一個地方通路需要的資源、服務,可能圈在一個園區或者某個範圍,就說這些東西已經全打破了,打破之前僅限于某個區域的特定通路,未來可能說大家随時随地都可以通路,但這個通路是安全的。還有就是無人化,我們也是在極力的推行無人化,盡可能人員少登入少操作。
但無人化這裡我打了一個問号,這裡面帶來一個新的安全問題,系統與系統之間的通路如何安全?任何事情都兩面性,一個新的東西出來肯定是會有缺陷的。下一個就是智能化,體驗更好,這塊也是我們未來一段時間需要嘗試的。
未來的安全我認為可能會有這些關鍵詞,智能化、機器智能、無感等,主動去建構一層防護。
本文為 GOPS 2018 · 上海站阿裡專場 王建老師的分享整理而成。
原文釋出時間為:2019-01-25
原文作者:王建
了解相關資訊可以關注“
高效運維”。