天天看點

失控的不僅僅是雲成本:一年為可觀測性狂燒4.5億

作者:技術聯盟總壇

InfoQ 架構頭條 2023-05-29 15:00 發表于黑龍江

失控的不僅僅是雲成本:一年為可觀測性狂燒4.5億

整理 | 褚杏娟、核子可樂

“到底是哪家公司 2022 年在 Datadog 身上花掉了 6500 萬美元?”Datadog 最近在财務會議上透露,一項客戶一次性支付高達 6500 萬美元預付款,此事瞬間引發業内關注:哪家公司出手這麼闊綽?可觀測供應商這麼賺錢?

Datadog 是可觀測性的主要力量,2019 年融資上市,目前市值為 280 億美元。該公司 2022 年内的收入為 16.7 億美元,月均在 1.4 億美元左右。在一個關于降本的小調查中,“AWS”和“Datadog”是被提及最多的兩家供應商。這顯然證明基礎設施和可觀測性成本已經相當高昂,其中 AWS 是基礎設施領域的上司者。

在 5 月 4 日的财報電話會議上,Datadog 首席财務官 David Obstler 提到了一筆“非經常性支出”(也稱一次性費用),并表示:

“本季度收入為 5.11 億美元,較上年同期增長 15%。2022 年第一季度,曾有客戶支付一筆巨額預付款;但 2023 年第一季度沒有類似的大額支出。根據對該客戶的估算,其賬單同比增長率将低于 30%。”

這一細節被摩根大通研究部執行董事兼金融分析師 Mark Ronald Murphy 捕捉到了。在進行計算後,Murphy 透露出該筆預付款約為 6500 萬美元(約合人民币 4.5 億),Datadog 也承認了該數字的準确性。Obstler 表示,該公司改變了計費頻率和金額,是以随着時間的推移,該客戶的帳單将分攤得更多。

Obstler 透露,“這是一家加密貨币公司,目前仍是我們的客戶。他們是一家早期優化廠商,所處的行業正是我們經常讨論的受影響最大、優化空間最廣的領域。”

Datadog 聯合創始人兼首席執行官 Olivier Pomel 表示,在過去的一年裡,該客戶所在垂直行業幾乎被摧毀了。他們自己的業務收入減少了 3 到 4 倍。“在這種情況下,我們會與客戶合作,重組他們與我們的合同。我們想成為他們解決方案的一部分,而不是問題的一部分。”

至此,網上對于“到底是哪家加密公司 2022 年 内在 Datadog 身上花掉了 6500 萬美元”一事充滿各種猜測。

投資者 Turner Novak 推測是 Coinbase,但并不是很确定。網上甚至出現了冒充 Coinbase 員工的人。比如 Hacker News 上的某位匿名評論者,其聲稱 6500 萬美元其實是未來三年的預付款,但消息内容無法核實。後來,FARMLEND 全棧工程師 Gergely Orosz 發文稱自己确認了該公司就是 Coinbase,而那筆款項就是他們當年的到期賬單。下面我們看下 Orosz 的詳細說法。

“沒人關心基礎設施成本了”

Coinbase 公司于當年 6 月上市,上市首日估值 857 億美元。相比之下,将近兩年後,該公司的估值約為 140 億美元,下降了約 75%。在繁榮時期,交易量激增,屢創新高,而 Coinbase 基礎設施幾乎無法跟上。Coinbase 首席執行官 Brian Amstrong 曾表示:

“2021 年對 Coinbase 來說是不可思議的一年,這種态勢不要說在人的一生中非常罕見,拿到整個商業發展史上看也是屈指可數。我們的月交易使用者達到創曆史新高的 1140 萬,同比增長 4 倍。400% 的增長率,簡直令人難以置信。”

在 2021 年首次公開募股之後,Coinbase 公司裡已經沒人關心基礎設施成本了,唯一的目标就是繼續保持增長。該公司先後向 AWS、Snowflake 和 Datadog 等廠商支付了巨額費用。于是乎,2021 年這 6500 萬美元确實花給了 Datadog,Coinbase 則在 2022 年第一季度結清了這筆支出。

可 2022 年伊始,Coinbase 的情況急轉直下、需要立即削減基礎設施支出。這是因為加密行業突然遇冷,Coinbase 的業務自然也受到影響。随着收入枯竭,該公司開始将注意力轉向降本增效。

在可觀測性方面,Coinbase 成立了專項團隊,目标是把這部分功能從 Datadog 轉移到内部 Grafana/Prometheus/Clickhouse 技術棧上。 下面對這些技術稍做介紹:

  • Prometheus:一種時序資料庫。作為一套非常流行的系統和服務監控開源解決方案,Prometheus 會按給定的時間間隔從配置的目标(服務)處收集名額,并結合評估規則以觸發警報。

Prometheus 主要由 Go 編寫,也有用到 Java、Python 和 Ruby 代碼。Prometheus 可将時序資料以一種高效、可定制的格式存儲在記憶體内和持久存儲媒體(HDD 或 SSD)上,而且支援分區和聯邦部署。

Prometheus 屬于雲原生基的下轄項目,是以在它之上建構業務比較安全。該項目在目前及可預見的未來都将擁有穩定的維護和支援。

Prometheus 可以自托管,部分雲服務商也在提供 Prometheus 托管服務:Googld Cloud 和 AWS 都提供生産級服務選項,Azure 的服務目前則僅提供預覽版。

  • Grafana:可視化名額前端。Grafana 是一種流行的源分析和監控可視化解決方案。如果大家需要檢視或深入了解名額或警報,那 Grafana 就是理想的首選工具,在科技企業中得到廣泛應用。Grafana 儀表闆示例:
失控的不僅僅是雲成本:一年為可觀測性狂燒4.5億
  • Clickhouse:日志記錄管理工具。這是一套快速、開源,且面向列的資料庫管理系統,也是目前流行的日志管理選項。Clickhouse 主要由 C++ 編寫而成,在整個行業内得到廣泛應用。例如,Cloudflare 就使用 Clickhouse 來存儲其所有 DNS 和 HTTP 日志——每秒超過 1000 萬行!Clickhouse 還是 Uber 的中央日志記錄平台。

Coinbase 最初之是以選擇自己動手,主要目标并不是節約成本,而是要擷取完全控制力和可觀測性。可觀測性和可靠性,也正是 Coinbase 在市場上與競争對手抗衡時的最大王牌。

但随着加密貨币市場的降溫,成本開始成為核心關注點,而内部營運的 Grafana/Prometheus 方案也确實要便宜得多。Coinbase 團隊幾個月來一直在重複調試新技術棧,最終解決了所有問題、确認一切運作正常。

就這樣,Coinbase 本打算就此跟 Datadog 說拜拜,但 Datadog 在最後一刻挽救了這段合作關系,給 Coinbase 開出一項其無法拒絕的優厚條款。簡單來說,Datadog 後續開出的賬單将遠遠低于 2021 年的 6500 萬美元。畢竟就像 Brian Amstrong 在談到 2021 年的加密貨币市場時說的那樣,6500 萬美元的賬單在整個商業發展史上也不常見。

為留住客戶,Datadog 打“骨折”

Orosz 就此事詢問了 Coinbase 一位同時體驗過内部技術棧和 Datadog 的工程師,想聽聽對方怎麼看待繼續留用 Datadog 的決定。這位工程師認為,考慮到合理的成本和卓越的開發體驗,繼續選擇 Datadog 是個正确的決定。

Coinbase 最終已經能在内部設計出類似的體驗,但要想實作與 Datadog 相近的無縫開發者體驗,那可能還需要耗費數十年的工程投入。

而且可觀測性工具中的“昂貴”是個相對概念。比方說,在大幅降價之後,如今 Coinbase 每年“僅”須在 Datadog 身上花費 1000 萬美元。那這 1000 萬美元到底多不多?

第一反應似乎仍然不少,但再深入剖析後可以發現,像 Datadog 這樣的平台還有助于防止中斷、即時檢測并快速緩解當機事故。

2022 年,Coinbase 曾發生過 18 次停機,總時長約為 12 小時。根據 2022 年的收入計算,該公司的日均收入約為 900 萬美元。假設 Datadog 能夠通過早期監控來防止中斷問題,由此将中斷次數減少了一半,那就可以認為如果沒有 Datadog 的參與,實際停機總時長将是 24 個小時。

另外,假設 Datadog 支援下的 Coinbase 能夠将恢複速度提升至 2 倍(可能是因為 Datadog 會快速将健康名額同日志、調試操作等聯系起來,幫助查明根本原因并改進緩解效率),那麼不用 Datadog 的總停機時長将進一步延長到 36 個小時。

這樣做個簡單的數學計算,Coinbase 選擇了 Datadog 之後單在停機時間上就省下了 900 萬美元,是以現在每年 1000 萬美元的支出可以說是物有所值!

千萬美元的可觀測賬單,并不罕見

在 DataDog 的案例中,由于該公司提供的不僅僅是可觀測性解決方案,還包括安全賬單,數字變得更加複雜。财報沒有說明這家未具名的公司使用了多少此類 SaaS 服務。

“雖然 6500 萬美元是一個令人震驚的數字,但對于傳統的可觀測性公司來說,1000 萬美元的賬單并不罕見。”可觀測性替代提供商 Groundcover 首席執行官 Shahar Azulay 表示。

“像 Coinbase 這樣的大公司,不久前就已經開始以每年 1000 萬美元的價格進行采購。”Azulay 說道,“很多公司每年會向 Splunk、Dynatrace、DataDog 這樣的可觀測提供商支付超過 1000 萬美元,甚至同時向多個供應商支付,每個供應商都超過兩位數的收入,這并不罕見。”

Azulay 補充道,重點在于可觀測供應商如何定價。可觀測性解決方案監控三種類型的資料:日志、度量和跟蹤 (監視互動的路徑,例如端到端事務和服務之間發生的事情)。這些資料源的增長趨勢很難預測,尤其是當“黑色星期五”這樣的事件出現時,使用者的使用量會達到峰值。

“它充滿很大的不可預測性,并對推送到日志中的資料量有很大的依賴,這就是有大量定價點的根本原因,因為你無法控制,也無法知道下個月将支付多少。”Azulay 表示,更重要的是,即使合同是針對某一梯度水準的,一旦公司超過了該等級,那從當天起,廠商就會按更高的等級費率收費。

“特定的 log lines 可以成為基礎設施的關鍵部分,例如谷歌的搜尋引擎或任何每天運作 100 萬次的東西——隻是客戶每天使用它 100 萬次。”Azulay 表示,開發人員可能隻是将更多的 log lines 或資料點推送到系統中,但不知道更多。有一個這樣的循環:開發人員建立應用程式,建構組織作為産品提供方應該做的業務邏輯,然後做研發管理,直到兩個月後才發現:哦,這讓我們的價格上漲了 50%。

Azulay 認為,問題可能會落在開發人員身上,因為他們向可觀測性堆棧推送了太多資訊,導緻監控生産的資料點數量減少了。“這是一個奇怪的惡性循環,開發人員想要更多的資料來排除故障,而管理人員則需要權衡,他們必須為此支付大量的錢。”

不過,并非所有可觀測性公司都是這樣收費的。使用 eBPF 代理的 Groundcover 不收集資料,它按生産環境中運作的伺服器數量收費。

誰是“大冤種”

很明顯,供應商會對客戶的支出削減守口如瓶,我們隻是很幸運地從 Datadog 發言的細微線索中找到了 Coinbase。但 Coinbase 的情況絕不是個例,更多反映了市場的整體趨勢。

Datadog 公司 CEO Olivier Pomel 證明,類似的成本優化舉措正在全體客戶中間發生:

“觀測我們的資料,回顧我們從超大規模客戶那邊聽到的聲音,總結客戶關于短期未來的觀點,我們确實對接下來的前景沒什麼信心。換言之,下個季度、最多下下季度,大規模的降本增效就要到來。是以,就目前的指導方針和年内規劃而言,我們認為剩下的半年基本都會是這個情況。”

Datadog 的危機可能也還在繼續。Orosz 透露,Shopify 正打算跟 Datadog 脫鈎。

Orosz 表示,多家體量巨大的企業都在建構自己的内部 Grafana/Prometheus 技術棧,打算借此脫離原有可觀測性供應商,而歸根到底還是錢的問題。

“每年 200 到 500 萬美元的固定支出就是逃離供應商的最佳理由。畢竟一旦到了這個規模,理論上還不如雇用内部團隊自己接手這部分工作。”Orosz 表示。

根據指導經驗,内部基礎設施的營運成本要遠低于供應商開出的價格。這是因為供應商和企業往往都在使用相同的雲基礎設施,可能是 AWS、Google Cloud Platform 或者 Azure。最大的差別在于,企業需要聘請專門的工程團隊和技術人員來建構并運作這套基礎設施。

是以從成本角度看,最終權衡可以提煉成下面這條簡單規則:

基礎設施成本 + 平台團隊成本 < 現有供應商成本

其中,平台團隊成本會高于 100 萬美元,有時候甚至超過 200 萬美元。這是因為平台團隊至少要有 4、5 位工程師加一名經理,他們的平均年薪都在 15 萬到 40 萬美元之間,具體由成本基礎決定。

是以當服務賬單每年達到 200 甚至 300 萬美元級别時,自建就比外包顯得更靠譜了。而完成最後臨門一腳的,則是供應商在原始基礎設施之上又附加了多高的保留利潤。

Orosz 表示自己想不通 Coinbase 的行為:為什麼供應商都把價格開到 6500 萬美元這個級别了,他們才開始考慮自建團隊?

“這可是 6500 萬美元,Coinbase 完全能用它在灣區組建一支 10 名進階 / 資深工程師的豪華陣容,就算這樣成本每年也不會超過 500 萬美元。之後就是給基礎設施做成本預算,這部分開支每年也就不到 100 萬美元吧。”Orosz 感歎道。

參考連結:

https://investors.datadoghq.com/static-files/18234a4f-04f9-4a9f-9679-668cd672fb7b

https://blog.pragmaticengineer.com/datadog-65m-year-customer-mystery/

https://thenewstack.io/datadogs-65m-bill-and-why-developers-should-care/