天天看點

Zilliz星爵:向量資料庫,開創AI原生資料基礎軟體時代 | GGV OMEGA訪談錄

作者:GGV紀源資本
Zilliz星爵:向量資料庫,開創AI原生資料基礎軟體時代 | GGV OMEGA訪談錄

當ChatGPT 、AutoGPT等諸多新項目一躍成為科技圈的談資時,AIGC終于迎來了井噴式發展,而其背後的大語言模型(LLMs)也受到了前所未有的關注。全球開發者仿佛又看到了那個曾經輝煌的移動網際網路創業時代,争先湧入這一賽道。

ChatGPT 的出現将會讓AI程式開發變得極度簡化,掌握 CVP Stack就擁有了AI 開發的未來。其中,C 代表以 ChatGPT 為代表的大模型,它在 AI 程式中充當中央處理器的角色;V 代表 Vector Database,即以 Zilliz和Milvus 為代表的向量資料庫,為大模型提供知識存儲;P 代表Prompt Engineering,各環節通過 prompt 的方式進行互動。向量資料庫站在了AI基礎設施的風口浪尖。

有人緊跟趨勢,有人重新開機賽道,也有人彷佛能預知趨勢般早早開始布局。早在2017年,中國就誕生了全球第一家向量資料庫公司,它就是由星爵創辦的Zilliz。

Zilliz身為向量資料庫的全球先行者,在創新的道路上披荊斬棘、筚路藍縷。對于創始人星爵來說,之是以在多年前選擇這樣一條曾經無人問津的道路,正是因為他看見了AI技術快速發展與傳統資料庫技術之間青黃不接的痛點,而痛點恰恰意味着可能有機會出現。

如今,在向量資料庫這條道路上,Zilliz已然不是孤軍奮戰,為此星爵的感受并非惶恐不安,而是深感欣慰。當一條道路上出現了更多的競争者,恰恰意味着 Zilliz 走在一條正确的道路上。百花齊放才能稱之為春天,人多了才能形成廣闊的市場。Zilliz擔憂的從來不是前無古人,而是後無來者。

今天的GGV OMEGA訪談錄根據《創業内幕》S4 Vol.42期内容整理而來,我們請到了對AI見解獨到的Zilliz創始人——星爵,也歡迎大家收聽本期節目。

下面的内容将分享,曾經的星爵為何選擇了這樣一條人迹罕至的道路,又是出于何因選擇了将技術開源;在創業的過程中,他遇到了哪些挑戰,又是如何一一克服,走出一條Zilliz獨有的道路,迎接屬于AI的“iPhone時刻”,答案就在這裡。

核心觀點:

  • 創業無非就是從看見需求到解決需求。
  • 走得遠的創業公司需要公司文化加持。
  • 創業路上有競争對手并非壞事,那說明方向是對的。
  • 盈利和燒錢并不沖突,創業需要厚積薄發。
  • 全球化布局道路的攔路虎就是使用者付費意願+資料安全和合規挑戰。
  • 人才招聘——被動吸引和主動尋找,雙管齊下。
Zilliz星爵:向量資料庫,開創AI原生資料基礎軟體時代 | GGV OMEGA訪談錄

創業無非就是從看見需求到解決需求

星爵身為資料庫領域的老兵,卻選擇離開Oracle(甲骨文),投身孤獨的創業路。這背後的原因是什麼?他何來信心覺得自己能夠創業成功呢?

先請星爵介紹一下自己和Zilliz這家公司。

我自己是一個資料庫領域的老兵,創業之前在Oracle(甲骨文)的全球總部工作,負責資料庫的研發,當時和團隊做的是12c的語音資料庫。離開 Oracle 後,我就回國創立了Zilliz,也是一家開源的基礎軟體公司,專注于研發新一代面向于各種AI應用的向量資料庫系統。

大家都知道,在AI時代,我們處理的很多資料都是這些新型的非結構化資料(比如像圖檔視訊、使用者行為、畫像語言、自然語言等等),甚至于在生物化學領域裡面,需要研究蛋白質的三維結構、化學分子式的三維結構等等,這些都屬于非結構化資料。在此情況下,以 Milvus 為代表的向量資料庫提供了一種高效的且能夠管理、分析、使用這些非結構化資料的方式,幫助各行各業挖掘非結構化資料後面的價值。是以在過去幾年裡,我們也有幸把産品通過開源的方式推向整個市場,在全球範圍内得到了超過幾千家使用者的青睐。

咱們目前團隊是個什麼樣的組合?您覺得您為什麼可以去做這樣一件事?

放到AI時代的大背景中,我們的向量資料庫是在AI新的應用場景之下産生的一個新型資料庫基礎軟體,背後有兩大背景:一是AI領域發展帶來的新場景新應用,二是海量的非結構化資料亟待被管理,而從數量級來說,它們可能比結構化資料還要大上一個數量級。

至于如何去設計一個高效的向量資料庫,那就需要具備兩方面的能力:

  • 熟練掌握AI的能力

這意味着一定要懂得AI的使用場景、使用方式,甚至要懂得AI的生态運作體系;

  • 需要有傳統的資料庫技術能力

要管理如此量級的資料,同樣需要具備傳統的資料庫技術能力(包括如何做分布式,怎麼做擴收容,如何做資料安全、備份,高可用等能力)。

基于此,我們在組建團隊的時候,會特别考慮這兩個方面,是以現在團隊是兼具AI與資料庫傳統基礎軟體的交叉複合型團隊。

您一開始創業時就想清楚了要做AI向量資料庫嗎?

其實不是的,五六年前我回國時,隻是有一個很懵懂的想法。首先是我看到了AI時代裡面AI的新場景、新需求,這讓我堅信,未來5-10年,一定會有一個新型的AI時代的資料庫軟體出現,但是它具體是什麼樣的形态,什麼樣的産品功能,其實當時沒有想得特别清楚。是以回國後我和團隊做的第一個産品,就是利用AI時代裡的新型硬體(有很多GPU、新型的異構計算的晶片),做了一個新型的資料分析引擎,通俗來講就是GPU資料庫跑在GPU處理器之上的一個新型的資料分析、處理軟體。

在那之後,我們覺得找到了新的方向,加上技術過硬,産品本身具備創新性,整個團隊都覺得信心滿滿。于是我們把它拿到市場上進行檢驗,但是在檢驗過程中發現,雖然這個産品無論在技術還是想法方面都極具優勢,可在實際落地過程中解決的問題仍然比較有限。是以當時我們就一邊接觸使用者,一邊在想如何做出一個更好的、能夠達到PMF(Product-market fit,産品-市場比對)的産品。

經過差不多一年的探索後,我們發現市場上的很多使用者,對向量的資料管理、計算、分析、比對、查詢需求強烈,甚至成為了一個新興的市場,并且這個市場幾乎是每個做深度學習的AI公司的剛需。是以團隊在2018年下半年開啟了一個新型項目,即研發向量資料庫。2019年,我們把這個産品以開源的方式推向整個市場,大概4到5個月之後,我們就擁有了四五十家使用者,這也讓團隊意識到這個賽道背後藏着更大的潛力。事實證明,我們的确解決了很多AI企業在進行AI大規模生産環境部署中的一個痛點,是以後面整個公司就all in向量資料庫賽道,一直做到了今天。

Zilliz星爵:向量資料庫,開創AI原生資料基礎軟體時代 | GGV OMEGA訪談錄

推陳出新:

走得遠的創業公司需要公司文化加持

從傳統資料庫到AI向量資料庫的轉換,是一個推陳出新的過程,剛開始難免不被認可和不被了解,但這些都是創業經曆中無法避免的階段。要想創業成功,要想公司走得更遠,公司必須具備自己的文化。

您能不能給我們通俗地解釋一下,什麼叫“AI向量資料庫”,它和我們日常了解的資料庫有什麼不同?

本質上講,任何一種管理資料的系統軟體,都可以叫作“資料庫”。一個資料庫的基本功能,是需要提供資料的高效存儲、檢索、索引,甚至可以做分析查詢等等。傳統的資料庫可能都是一些關系型資料庫、分布式資料庫,以及近年來出現的圖資料庫、時間序列資料庫等等,這些資料庫其實都有一個特點:它們處理的資料是結構化的資料,即像計算機比較容易了解和處理的一些數字、字元串等等。

現在到了AI時代,人機對話講的是機器和算法如何去了解人的自然語言,我們講的是計算機視覺,就是整個機器如何像人一樣去觀察、感覺整個世界,包括我們說的生物制藥這些領域,類似研究小分子的三維結構、蛋白質的三維結構和它的生化活性之間的關系等,最終達到幫使用者找到更好的創新藥的目的。

在AI時代,開發者都會用一些AI的深度學習算法模型,并把這些資料轉化為高維的數學概念。比較通俗地講,就是通過一個高維的向量,內建、代表這些非結構化資料,圖檔也好,視訊語言中一些深度的語義也罷,通過向量的查詢跟比對和向量資料庫的向量計算的能力,可以實作對這些非結構化資料的語義計算、語義了解、語義查詢。例如,之前我們做圖檔檢索,可能要用檔案名的方式查找,有了這種向量資料庫的技術,隻要輸入一個場景,它就會自動了解哪些圖檔、視訊裡面包含你所查詢的場景,然後把這些場景找出來。

您說一開始可能大家并不太了解您所做的事情,那您是怎麼去向他們澄清這種誤解的?又是怎麼去說服自己堅持下去的呢?

從對外層面來講,我覺得能夠進行良好的對外溝通是一個創業者需要具備的最基本的能力,是以不管是面對投資人還是潛在工程師,如果希望說服對方加入公司,就需要從行業大勢、AI發展等大的層面進行更多溝通。從另一個角度來看,我們不可能說服所有人,是以尋找投資人或者理想中的志同道合創業小夥伴,都是弱水三千隻取一瓢飲。是以,我認為對外溝通并不困難。

從對内的角度來看,在一個高度不确定性的環境下,要凝聚大家的力量并向着一個方向努力,可能是一件比對外溝通更加困難的事情。過去幾年,因為我們一直走在無人區,基本上所有的技術方向、技術架構還有技術的探索和實驗,可能都需要自己去摸索。是以,過去我們内部在研發過程中經曆了很多次挑戰和失敗。

正因如此,我們公司内部形成了一種文化,就是先把産品的商業化擺在一邊,優先做一些具有開創性的、困難的事情。再者,作為一個工程師文化特别濃厚的團隊,我們是在做一件之前别人沒有做過乃至沒有解決過的事情,這本身就會讓大家覺得很酷,容易激發鬥志。另外一方面,我覺得恰恰是因為這種文化,才吸引到了一群極客工程師,他們本身就很願意去做一些高度不确定性的東西。

Zilliz星爵:向量資料庫,開創AI原生資料基礎軟體時代 | GGV OMEGA訪談錄

創業路上有競争對手并非壞事,

那說明方向是對的。

孤身獨行的創業路固然少了競争,但也意味着它可能并非一條會柳暗花明的道路。與其害怕競争,還不如歡迎對手來分一杯羹,讓對手幫忙開拓市場,市場大了,才有更多提升的價值空間。

作為一個開源資料庫,公司現在有哪些大客戶是可以跟我們去分享的嗎?它在實際應用中是否已經有了一些成功案例了?

其實,我們的使用者分布在各個行業。例如,在網際網路和電商行業,盈利基本上靠“搜廣推”,即用向量資料庫的技術結合深度學習做更好的“搜廣推”,改善“搜廣推”的品質。是以,我們在個性化搜尋、個性化系統推薦引擎、定向定制化廣告這些方面的應用場景比較多。海外電商裡包括Shopee、eBay都在使用我們的産品,國内很多網際網路公司後面的“搜廣推”系統,或多或少也都會用到我們的産品。

此外,随着短視訊在全球興起,如何更好地去了解圖檔、視訊裡面的内容并基于這些内容做更好的推薦,甚至基于視訊進行電商的商業化嘗試,成為很多短視訊公司的重要挑戰。為此像快手、虎牙等頭部短視訊廠商也會使用我們的産品。

在更大的一個背景裡,例如在安全和欺詐檢測的很多應用場景,同樣有我們的使用者。國内幾家比較頭部的金融機構,都在用我們的産品結合深度學習去做欺詐檢測。另外,在計算機安全和網絡安全領域,一些做網絡安全的公司,會用我們的技術去分析整個網絡流量,進而區分正常流量和網絡攻擊流量。

據我所知,其實AI向量資料庫賽道在中國沒什麼公司布局,那麼在全球範圍内,您有看到哪些競争對手/哪些巨頭已經在布局該領域了嗎?

其實我們在2018年剛起步的時候,還是挺孤獨的,就算是跟投資人、業界工程師、專家去探讨,大家也都表示這個東西看不太準,不是特别了解。但是在2020 年至 2022年的時間裡,向量資料庫賽道經曆了一波小爆發,尤其是2021年以來,我們看到國際上的一些巨頭紛紛在向量資料庫的品類布局,并相繼推出了他們的向量資料庫的産品。除了大巨頭以外,還有一些中型巨頭、在創業公司裡面做得比較好也比較大的基礎軟體公司,也都在他們原有能力之外,推出了這種向量資料連鎖的擴充。

是以從2021年以後,這個原本有些冷清的市場,突然變得異常熱鬧,向量資料庫也越來越多地進入到 AI工程師、開發工程師的視野,這是讓團隊尤為欣喜的一點。本來我們預計可能還要孤獨地繼續探索一兩年,但是現在發現整個行業的發展可能要超過我們的預期。

Zilliz星爵:向量資料庫,開創AI原生資料基礎軟體時代 | GGV OMEGA訪談錄

盈利和燒錢并不沖突,

創業需要厚積薄發。

面對燒錢的質疑,Zilliz毫不畏懼。對于Zilliz而言,每一筆錢都花在了刀刃上,因為Zilliz是需要憑借積攢的技術來為将來創收的。商業化的征途,必然是先付出再得到,真金白銀打造的優質産品,才更有将來持續盈利的可能性。

目前Zilliz已經盈利了嗎?盈利的模式是什麼?

其實早在前幾年,Zilliz就已經确定好了唯一的商業模式,就是在雲上建構向量資料庫的雲服務。我們已經看到雲是未來,尤其對于非結構化資料的處理而言,未來隻能是雲。因為對于一家公司而言,自行維護AI包括非結構化資料處理、向量資料庫的基礎架構是相當困難的。在下一個AI時代裡,對這種基礎軟體的使用者來說,他們上雲的需求可能不是“想與不想”的問題,而是“不得不”的問題,因為相關的模型訓練、AI部署、向量資料庫的資料管理,大部分已經在雲上了。是以,我們堅定地把雲作為我們整個公司的一個整體戰略,也把整個商業化産品形态,全力投入在向量資料庫的雲服務之上。

其實從去年開始,Zilliz 就已經開始研發向量資料庫的雲服務,這是一個在公有雲上面的資料庫服務,是一個全托管的,能夠在雲上面提供安全、高效、高可用的向量資料庫的雲服務。對我們的使用者來講,他們再也不用考慮自己部署向量資料庫的系統的問題,也不用管以後如何運維,甚至整個系統的高可用性管理,包括容災、性能調優等等。總之,我們會幫使用者打點好一切。

2個月前,我們釋出了向量資料庫的雲服務,叫作Zilliz Cloud的早期預覽版,下個月會釋出正式版本。到那個時候,我們公司可能就會進入一個新階段,從一個開源的技術公司,變成一個開源且面向商業化、擁抱商業化的公司。是以今年年底應該就是我們商業化征途的開始。(本對話的時間為2022年底,Zilliz Cloud 早期預覽版實際釋出于2022年9月,正式版釋出于2023年3月。 )

您怎麼看待燒錢的這種模式,燒錢的效率應該怎麼提升?

首先我想說明一點,我們公司從來沒有在燒錢,花的每一分錢都特别慎重,恨不得把一分錢當兩分錢花。過去幾年,我們把每一分錢/每一份資源和時間,都用在一個我們認為的最核心的公司競争力上,就是我們的技術和産品。目前,公司大概有100多人,但是接近80% 的員工都是工程師。我們也沒怎麼在市面上投放廣告、PR投放,絕大部分PR投放都是通過我們的社群、技術分享等這些自然流量去換來的。

之是以會有這樣的選擇,是因為我們看到,作為一個基礎軟體公司/資料庫公司,技術和産品是最核心的競争力,對To B公司而言沒有太多花活可以選擇。另外,作為資料庫的一個基礎軟體,必須要經過長時間的研發,因為基礎軟體(尤其像資料庫這種基礎軟體)的複雜程度相當高,這本身就需要大量長期研發投入才能做到。與其說我們是故意推遲我們商業化的時間節點,不如說資料庫軟體本身就極具複雜性,如果沒有通過三五年的研發,幾乎不可能做出一個可用的産品。

是以,我也要特别感謝過去一路陪我們走來的所有投資人,感謝他們對我們的信任,和我們堅定地認同同一個願景/理想;也感謝公司裡每一位辛勤的工程師,正是因為大家在過去三五年不斷地付出和堅持,才有我們今天這樣一個比較可用、比較好用的産品,也使得我們有信心能夠把公司的産品做成在雲上實作商業化的雲服務,讓公司走入下一個商業化階段。

其實您當年加入甲骨文的時候,在甲骨文負責的第一款雲資料産品就叫12c,您進入這個團隊時隻有5個人,此後6年時間裡,平均每年也隻有7-8個人,但是疊代了兩個版本。到今天為止,這個團隊其實已經有上百人了。四五個人一起去開發一款這樣大的産品,對您今天創業有什麼特殊的啟示/啟發嗎?

最大的一個影響就是面對複雜後的從容。解釋一下,你見過最複雜的系統,和最優秀的一些工程師是如何解決問題的。當你再次遇到比較難的問題時,可能心裡就不會慌了,即便有的問題暫時不知道解法,也能保留這一份從容和自信。

從技術層面來講,我在研究所學生階段學到的關于資料庫的理論知識、在論文上面讀到的知識點,畢業後能夠有機會看到它在行業中最領先的資料庫系統裡搭建,同樣受益匪淺。

而當我創業時,因為見過更複雜的系統,在做一些決定的時候,技術層面的風險是比較可控的,整體會覺得充滿信心、趨于樂觀。

Zilliz星爵:向量資料庫,開創AI原生資料基礎軟體時代 | GGV OMEGA訪談錄

全球化布局道路的攔路虎:

使用者付費意願+資料安全和合規挑戰

Zilliz作為涉及資料安全和合規挑戰的公司,在全球化布局的道路上,勢必面對着許多亟待解決的挑戰。提前去考慮和應對這些問題,有助于公司更順利地進行全球化布局,節省許多金錢和時間成本。

對比海外使用者和中國的本土使用者,您覺得他們在付費意願和客單價上有什麼不同嗎?

我覺得它們的不同還是蠻明顯的。國内公司對新技術其實很敏感,包括工程師對技術的追求也是很積極的,但是如果說到商業化付費意願還有付費能力,和國外的差距就比較大了。尤其是這種基礎軟體,因為它是跑在整個計算機系統的最底層的軟體,很多公司的CTO包括CEO可能是看不到的,同時國内很多公司可能也比較傾向于自己造輪子,不會想說花更少錢去買一個基礎軟體産品,最為明顯的是網際網路領域。整體來看,國内公司的付費意識和付費意願比較低,落後國外一個階段。

在全球化道路上,咱們需要面對大量關于資料安全和合規的挑戰,做好準備了嗎?

其實我們已經開始關注合規和資料安全這一方面的一些問題,包括我們今年産品已經通過了SOCII的認證,接下來我們也會去推進像GDPR等更多不同地區和國家的一些資料安全、資料管理的合規認證。

同時,我想給其他創業公司/創業小夥伴一些建議,如果你想做一個國際化生意/國外市場,那麼資料安全和合規可能是你在第一天就要考慮的問題,越早把公司内部的管理流程還有産品往合規方向去做,未來就能為你節約越多的時間跟成本。

Zilliz星爵:向量資料庫,開創AI原生資料基礎軟體時代 | GGV OMEGA訪談錄

人才招聘:

被動吸引和主動尋找,雙管齊下

Zilliz作為一家提供開源産品的公司,在人才招聘方面,秉持着被動吸引和主動吸引的雙全法。專注于産品,打造好的公司氛圍,适合公司的人才自然而然會被吸引過來;同時在尋找人才上下足功夫,招賢納士。

您能不能給我們的創業者一些建議,就是怎麼營運一個開源社群,怎麼擷取organic traffic(自然流量)?對于人才招聘有沒有什麼好的建議?

其實我們在這一方面屬于持續探索的過程中,經驗談不上,但是有一個特别值得去分享的教訓:當你做一個開源産品的時候,一定要有一個更開放的心态。在開源的世界裡,你做這種me too,甚至做me better,可能都不是一個解決問題的最優選擇,最好的方法就是保持專注。

過去幾年,我們的社群發展取得了一點成果,這可能就來自于團隊當時很克制且很精準地選了向量資料庫、向量資料管理。到現在為止,我們也堅定地隻做一件事情,不會把自己的能力延伸到其他賽道裡。在整個AI生态裡,Zilliz希望用一種更開放的心态,跟上下遊合作,這就相當于你在利用已有的社群生态能量,去為自己的項目、社群貢獻更多合力。

另外,我覺得如果想要做好開源的社群營運,不見得要打造一個全新社群,也可以加入現在已有的成熟社群,利用它成熟的社群治理理念、治理架構,利用他社群裡面活躍的生态和活躍的開發者。總之,用一種更開放的心态,分享自己項目的技術能力和産品能力,為這些開發者和社群賦能,為開發者這個大群體本身和開源事業貢獻自己的一份力量。

在招聘人才方面,有兩個層面值得分享:第一個層面,把你的技術和産品做好,建立一個以技術為主導、研發為主導的工程師文化氛圍,這對吸引人才行之有效;另一方面,可能要花更多資源和精力去尋找團隊人才,例如,我們在公司内部建了一個小的獵頭公司,有5個全職人員專門負責找人。綜上,我覺得想要尋找優秀的人才, CEO就要在面試人才上付出更多精力,公司要投入更多資源,掘地三尺把這些人才找到。

你們現在在中國大陸地區還需要招人嗎?

我們需要招人,我們現在在全球包括中國大陸地區都在招人。歡迎認同Zilliz價值觀的小夥伴,加入我們這個年輕的大家庭,和我們一起在資料庫技術探索的道路上,發現更多的可能。

往期回顧第二季:分秒幀 程剛| 銳格 邱夏楊| 神策 劉耀洲 |特贊 範淩第一季:小牛電動 胡依林 |e簽寶 金宏洲 |變形積木 張轶然|太極圖形 胡淵鳴|智齒科技 徐懿|啟元世界 袁泉|星辰天合 胥昕|擎創科技 楊辰|樹米科技 劉恩培|Treelab 何浚炫|小佩 郭維科|通用淨水 王鐵|領貓SCM 李應離|包小盒 王先鋒|鎂伽 黃瑜清|影刀RPA 金禮劍|酷家樂 陳航|杏樹林 張遇升|雪諾科技 高雪峰|Kong 戴冠蘭

繼續閱讀