天天看點

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

作者:品玩

大模型的風已經不可避免地刮到了大資料行業,火藥味還不小。

這不快臨近了有人注意到,兩家大資料行業的“宿敵”Databricks和Snowflake,今年雙雙把各自一年一度最重要的峰會選在了同一時段——6月26日-29日舉辦。

這可是這麼多年來都沒有過的事。

不僅如此,他們還“不約而同”把今年大會的主題都往AI靠攏了。Databricks直接給大會取名叫“Data+AI Summit”,官網一點進去就是一個碩大的“Generation AI”:

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

Snowflake也給自己的大會加了一個很牛的定語,“全球最大的資料、App和AI主題大會”:

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

這說明了什麼?說明兩家公司在明目張膽逼着參會者們做選擇:你要去了他們的會,再來我們這恐怕是來不及了。

要知道這倆公司,一個在舊金山,一個在拉斯維加斯,自駕要9個小時,飛機也得飛1個半小時。參會者想兼得魚和熊掌,怕不是要折騰個夠嗆。

下面重頭戲來了,不僅時間重合,兩家公司都各自請到了重磅嘉賓來發表主題演講——Databricks請到的是微軟的CEO薩蒂亞·納德拉(Satya Nadella),Snowflake則是英偉達CEO黃仁勳。

個個都是大佬。

有網友提醒大家,鑒于兩家公司的峰會在同一時間舉辦,“如果你還沒選邊站,那麼現在該你選擇的時候到了”。

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

當然也有不乏準備兩邊跑的人。Striim公司的産品經理John Kutay就計劃在兩個大會上分别發表講話,不過也“将評估拉斯維加斯和舊金山兩地的路程和時間”。

有還沒做好決定的網友問他在Databricks上的發言内容會是啥,“我想去,但是到時候還得趕去SF,唉。”

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

對此,甚至還有個網友做了個離譜的夢,“剛剛夢到所有人都在Snowflake的大會上感染新冠了,因為Snowflake不想讓我們參加Databricks的峰會……”

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

Snowflake和Databricks都是目前大資料分析公司中的佼佼者。前者于2021年創辦,并在2020年9月上市,上市首日收盤股價飙升111.6%,報253.93美元,成為美國有史以來規模最大的軟體IPO。

此外,Snowflake的股東名單裡還不乏Salesforce和巴菲特這樣大名鼎鼎的投資方。

創辦于2013年的Databricks則是目前一級市場中的超級獨角獸,曾在2021年連續獲得兩輪10億美元級别的大額融資,估值高達380億美元(2021年資料)。

一些中國從業者也更習慣叫它“磚廠”。

兩家公司不僅經常被外界拿來做比較,彼此之間也總是明着暗着各種較勁。

最著名的一次喊話是在2021年。當時眼看着Snowflake靠着雲資料倉庫就做到了千億市值,Databricks坐不住了,發了一篇文章稱其資料湖技術創下了TPC-DS基準測試新記錄。

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

重點是,Databricks還強調了第三方研究表明其實際性能可達Snowflake的2.5倍。

接着過了十天,Snowflake做出回應,釋出了自己的測試結果,同時稱Databricks公布的性能比較結論缺乏完整性,而且研究本身也存在缺陷。

Snowflake創始人還強調這種基準測試沒什麼意義,在這個年代釋出資料庫基準測試結果是“将正常的技術交流變成了缺乏完整性的營銷噱頭”。

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

不甘心的Databricks再次回應,創始人發了一篇部落格,這次是更嚴重的指控:Snowflake為了測試結果竟然改了TPC-DS的輸入資料。

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

從那之後,兩家之間的互嗆就沒有停過。

在去年和投資人Matt Turck的一次對話中,Databricks的聯合創始人兼CEO Ali Ghodsi還不避諱地談到了與Snowflake的競争。

他先是商業性地誇了下Snowflake有着“可能是市場上最好的資料倉庫”,并且“Databricks與Snowflake将共存于可能70%的客戶中”。

這裡補充一點,Snowflake主要用的是資料倉庫技術,Databricks用的則是資料湖技術,這也是兩家技術思路最主要的不同。

接着Ali Ghodsi就宣傳起了自家的資料湖,“公有雲計算供應商有動力推動更多人把資料存到他們的資料湖中……我認為資料湖的範式将獲勝。”

産品性能上的你追我趕還沒完,現在Databricks和Snowflake又暗戳戳在大模型上較上勁了。

Databricks在今年3月釋出了一個名叫Dolly(據說是為了向第一隻克隆羊多莉緻敬)的開源大語言模型,稱“隻需30美元、一台伺服器和三個小時,我們就能教Dolly開始進行人類級别的互動”。

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

這明擺着也是在針對ChatGPT這樣門檻更高的産品,意思就是AI不再是隻有大型科技公司才能負擔得起的東西,不用拿多少融資,任何人都能開發出一個真正像人類的AI。

Databricks接着又在4月釋出了該大語言模型的開源疊代版本Dolly 2.0。

Snowflake這邊也在不斷炒作大模型,在4月釋出文章稱正在為生成式AI和大語言模型搭建一個以資料為中心的平台,并在文中詳細解讀了這麼做的依據和将帶來的影響。

随後的5月,Snowflake宣布收購初創公司Neeva,以在其資料雲平台中添加基于AI的生成搜尋。

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

雖然在AI大模型方面兩家公司還沒有互踏進對方的領地,不過這次年度峰會舉辦時間的重疊已經說明了他們的态度。

有趣的是,有人在谷歌搜尋“Snowflake conference”,出來的第一個結果卻是Databricks家的大會連結,其次才是Snowflake的。

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

就等于說,Databricks買了競争對手的關鍵字,來賣自己的廣告。

大模型讓資料庫行業先撕起來了,Databricks和Snowflake:開發者們你們現在必須選邊站了

我們也發現,在谷歌同時輸入“Databricks+Snowflake”搜尋,前兩條都是廣告(這個結果是動态展示的)——Databricks依然在競價排名的第一位置宣傳着自己取得的成績,但第二則是一家技術服務商,在宣傳自己幫客戶遷移到Snowflake的服務,這個投放甚至比前面有人發現的兩家直接競價的情況更有意思,Databricks依然可以被解讀為(在商業攻勢上)進攻性更強、更有戰鬥力的一方,但在兩家的競争中一些技術服務商也在抓緊尋找商機,而且似乎更認為轉移到Snowflake 的需求更大…

不論如何,一場大戰又要打響了。現在大模型領域不缺攪局者,到了Databricks和Snowflake這裡,興許就成了誰先幹掉誰的問題。

繼續閱讀