與向量資料庫相比,NoSQL 資料庫的增長最近有所下降。然而,NoSQL 供應商認為他們的産品最适合 AI。
譯自 NoSQL Database Growth Has Slowed, but AI Is Driving Demand,作者 Richard MacManus。
四年前,我寫過一篇關于 NoSQL 資料庫快速增長 的文章——很大程度上是因為它們與人工智能 (AI) 和機器學習 (ML) 的相容性。但那是 在 生成式 AI 熱潮開始 之前,OpenAI 在 2022 年 11 月釋出了 ChatGPT。
那麼,ChatGPT 出現後,NoSQL 資料庫發生了什麼變化?在 向量資料庫 的新時代,NoSQL 資料庫系統——如文檔存儲 (MongoDB)、鍵值存儲 (Redis) 和寬列存儲 (Cassandra)——還在增長嗎?
回到 2020 年,為了說明 NoSQL 資料庫系統的增長,我使用了以下來自 DB-Engines 的圖表:
該圖表顯示了從 2013 年到 2020 年,MongoDB、Redis 和 Cassandra 等系統的陡峭上升軌迹(盡管在這段時期結束時,所有三者都略有下降)。與 Oracle 和 MySQL 等傳統關系型資料庫的平坦——最終下降——曲線相比,NoSQL 的增長曲線非常顯著。
以下是 DB-Engines 在過去 36 個月(3 年)内的最新流行度圖表:
需要注意的是,該圖表衡量的是流行度增長(而不是實際使用者),我們可以看到,向量資料庫自 2021 年以來自然經曆了增長爆發——盡管它似乎在去年年底達到頂峰。與此同時,文檔存儲和鍵值存儲略有下降。
但是,如果我們檢視 2013 年的圖表,我們可以看到向量資料庫的增長還沒有達到文檔存儲和鍵值存儲的峰值(讓我們忽略寬列存儲圖表,因為自 2020 年我的文章以來,它的資料集似乎在 DB-Engines 上發生了變化)。
此外,盡管增長率略有下降,但 NoSQL 資料庫系統仍然是開發人員最受歡迎的選擇之一。下圖顯示了過去兩年中排名前十的資料庫系統變化很小,前六名(包括排名第五的 MongoDB 和排名第六的 Redis)保持不變。我們還看到,前四名資料庫系統都是關系型資料庫;并且使用者數量明顯多于 MongoDB 和 Redis。
NoSQL 和生成式 AI
當 Redis 在今年早些時候宣布有争議的 許可證變更 時,Linux 基金會幾乎立即宣布支援 Redis 的開源分支,名為 Valkey。Redis 公司的立場是,大型雲提供商擁有不公平的市場優勢,新的許可證是其試圖讓他們付費的方式。MongoDB 在 2018 年也采取了類似的措施,收緊了其許可證的限制。
關于 Redis 新許可證的争論,我将留給其他人,但我确實想強調 一篇部落格文章,Redis 在宣布後的第二天釋出了這篇文章。這篇文章名為“Redis 的未來”,重點關注 Redis 的 AI 用途。“我們始終走在 GenAI 浪潮的前沿,”首席執行官 Rowan Trollope 和首席技術官 Yiftach Shoolman 寫道,并補充說,“我們是最早認識到資料庫中需要向量搜尋功能的公司之一,甚至在 ChatGPT 和 LLM 成為家喻戶曉的名字之前。”
這篇文章詳細介紹了名為 Redis CoPilot 的 AI 驅動的助手的計劃(現在已可用),“允許開發人員使用語言直接與他們的資料互動,并将這些資料轉換為代碼。”它還打算通過利用産品量化并進一步利用最新的硬體和 GPU 進步來提高向量處理性能,使 Redis “對于 RAG 用例更具成本效益”。
至于 MongoDB,它也針對生成式 AI 用例。在最近發表在 The New Stack 上的一篇文章中,開發人員關系團隊負責人 Rick Houlihan 明确地 将它的解決方案與 PostgreSQL 進行了比較,PostgreSQL 是一個流行的開源關系型資料庫系統。Houlihan 認為,像 PostgreSQL 這樣的系統并非為 AI 所要求的工作負載類型而設計:
“考慮到 RDBMS 在處理寬行和大資料屬性時衆所周知的性能限制,這些測試表明像 PostgreSQL 這樣的平台難以處理生成式 AI 工作負載所需的豐富、複雜文檔資料,也就不足為奇了。”
毫不奇怪,他得出結論,使用文檔資料庫(如 MongoDB)“比使用并非為這些工作負載設計的工具提供更好的性能”。
為了維護 PostgreSQL 的聲譽,為 Postgres 提供 AI 相關功能的托管服務提供商并不缺乏。今年早些時候,我采訪了一家名為 Tembo 的“Postgres 作為平台”公司,該公司看到了對 AI 擴充的巨大需求。“Postgres 有一個名為 pgvector 的擴充,”Tembo 首席技術官 Samay Sharma 告訴我。“是以,它允許您将一個名為向量的簡單資料類型添加到您現有的表中。是以,即使您有現有的資料行,您也可以添加一個向量資料類型——它是一個轉換後的嵌入。”
AI 資料供應充足
當然,現在每家資料庫公司都聲稱其可以很好地與 AI 結合使用。就在上個月,Oracle 釋出了其 Oracle APEX 低代碼開發平台的AI 驅動更新,該公司表示,該更新使非開發人員能夠在不到兩分鐘的時間内執行向量查詢,而無需了解 SQL。
在 AI 方面,目前的需求并不缺乏——所有資料庫公司和項目,無論是 SQL 還是 NoSQL,都從中受益。