天天看點

一份不大的救命文檔,一場時間與生死的接力

2021年7月20日,一場暴雨打破了一座城市的甯靜。短短24小時,就讓這座黃河邊上的“中原糧倉”變成了一片汪洋。

罕見的特大暴雨席卷了整個河南,大雨沖毀了城市裡大部分的基礎設施,通訊受阻導緻大量災區群眾無法獲得有效的救援,許多人已經在水裡泡了好幾個小時卻無人知曉。

自7月20晚開始,大量河南暴雨的資訊開始在各類社交媒體急速傳播,各類線上文檔也開始出現。不同類型的救援資訊,被志願者們分門别類地編輯進不同類型的文檔,一時間“待救援人員名單”、“避險名單”、“住宿交通物資資訊”等文檔開始在各類社交媒體内進行傳播。

放在平時,一份文檔對于我們來說可能是工作和生活的必備工具。但在這次的災情中,每一份文檔都是一條資訊高速通道,每一個字元都寄托着社會各界對受災同胞的殷殷關切。

文檔是救援的方舟,在此刻顯得尤為重要,石墨文檔在第一時間向奮戰在抗汛一線的政府部門 / 醫療機構 / 公益組織 / 社會團體 / 個人志願者等免費提供進階版産品及服務。助力各方做好資訊收集與釋出,實作更高效的溝通協調。

根據目前的資料,自20日晚起,截止本周,全國共建立了超過1600個災情相關文檔,累計為數百萬裝置提供了文檔協作服務。主題包括現場求援、物資同步、洪災志願者填報、洪澇自救知識科普等。在災情發生24小時内,石墨文檔移動端通路量激增5.4倍以上。

一份不大的救命文檔,一場時間與生死的接力

《河南洪災緊急求助資訊登記表》分省市通路趨勢圖

一份不大的救命文檔,一場時間與生死的接力

災情相關文檔實時熱度圖

一條又一條的救命資訊,為災區人民提供了生機,但也讓石墨文檔背後的IT系統面臨着巨大的挑戰。而其中最重要的挑戰就是:如何保證系統的平穩運作。

隻有系統平穩地運作,使用者才能在第一時間對各類救命文檔進行整理、編輯、歸納等操作,讓更多人參與到文檔的共同協作當中,讓各條救命資訊能送到真正有需要的人手中。

在此次災情中,石墨文檔出色地完成了作為“資訊載體”的任務,確定文檔始終穩定可用。而此次在災情期間石墨文檔能有如此出色表現,很大一部分原因是因為石墨文檔早在5個月之前利用阿裡雲建構了一整套智能運維系統,打通系統全鍊路可觀測資料,實作了統一管理,智能告警和預檢能力。

在河南疫情發生不久後,石墨文檔SRE團隊工程師在7月20日晚值班時突然接到告警電話,電話那頭語音自動播報石墨線上K8S叢集資源使用率飙升,PV 同比增加200%以上。緊接着又收到某些業務接口通路量驟增和多個資源快到壓力位的告警資訊,并且伴随着多次容器自動擴容的事件發生。通過基于 SLS 打造的一條全管道事件總線,快速定位到事件起因:多個文檔的讀寫次數和通路人數出現異常增多。

定位到相關文檔後,發現原來是有人使用石墨文檔統計救災資訊,是以才有大量使用者同時通路。由于通路人數增長過快,不知道後續上漲趨勢如何,于是SRE工程師緊急協調了數倍于往日的阿裡雲計算資源對基礎設施進行了大規模擴容。確定這些救災文檔在數千人同時協作,數百萬人次浏覽的情況下也能保持穩定、流暢的體驗,保障救災工作順利進行。

一份文檔,牽動一城的心;一份文檔,打開一條求生通道;一份文檔,為河南的受災群衆帶去新的希望……

在進入雲原生時代後,逐漸完善的IT基礎設施,推動者企業業務進行數字化創新。而如何提升使用者體驗,讓業務快速且穩定地為使用者服務,是企業在這個時代發展的關鍵。尤其在面對各種突發情況需要用到該業務時,隻有做到“快速且穩定”才能讓該業務在關鍵時刻起到最大的作用。

繼續閱讀