他們志在打造AI領域的Github,短短幾年間,估值已飙升至20億美元。
"我們沒有任何防護措施,OpenAI也同樣沒有。"這是一位谷歌内部研究員在最近洩露的檔案中表達的觀點。他認為,在這場激烈的AI競争中,盡管谷歌和OpenAI你追我趕,但真正的勝利者可能并非這兩者之一,因為有一個第三方力量正在崛起。
這股力量就是"開源社群",這才是谷歌和OpenAI真正的競争對手。
而在開源社群中最具影響力的,無疑就是Hugging Face。作為AI領域的Github,它提供了衆多高品質的開源模型和工具,将研發成果最大化地惠及社群,大大降低了AI的技術門檻,推動了AI的"民主化"程序。
Hugging Face的創始人之一,Clément曾公開表示:"在自然語言處理或機器學習領域,最糟糕的情況就是與整個科學界和開源界競争。是以,我們不再選擇競争,而是選擇為開源社群和科學界提供支援。"
Hugging Face成立于2016年,短短幾年内連續獲得5輪融資,目前估值已經達到了20億美元。在Github上,它的星标數量已經超過了9.8萬,位列熱門資源庫之列。
那麼,這家公司到底做什麼的?它是如何逆襲成為開源界的"頂流"的?它的發展模式又是怎樣的呢?
01
NLP 開啟逆襲之路
Hugging Face是一家以自然語言處理(NLP)為核心的AI初創公司。
這個公司由曾經創辦過VideoNot.es、Mention,以及被Google收購的Moodstocks的法國連續創業者Clément Delangue和Thomas Wolf、Julien Chaumond共同創立。成立于2016年的Hugging Face,現在的總部位于美國紐約。
其中,創始人Clément Delangue和Thomas Wolf都是自然語言處理領域的專家,他們在推動Hugging Face發展的過程中,被認為是當代NLP領域的先驅。
他們創立Hugging Face的初衷,是想為年輕人建立一個"娛樂型"的"開放領域聊天機器人",就像科幻電影《她》中的AI一樣,可以和人聊各種話題,如天氣、朋友、愛情和體育比賽等。人們可以在閑暇時和它聊天,向它提問,甚至讓它生成一些有趣的圖檔。
這也就解釋了Hugging Face這個名字的由來,它源于一個張開雙手的笑臉emoji。
在 2017 年 3 月 9 日,Hugging Face App 在 iOS App Store 正式釋出,立即引起了廣泛的關注,并成功地獲得了來自 SV Angel、NBA 球星 Kevin Durant 等投資者的 120 萬美元的天使投資。
為了增強這個聊天機器人的自然語言處理(NLP)技能,Hugging Face 建立了一個庫,其中包含了各種機器學習模型和各類資料庫,這些資源用于訓練機器人進行情感分析、生成連貫回應、了解不同的對話主題等。
此外,Hugging Face 團隊還在 GitHub 上開源了庫的一部分,希望能夠通過使用者的共創獲得開發的靈感。
然而,到 2018 年,Hugging Face 的發展依然平淡無奇,于是他們決定開始免費線上分享應用程式的底層代碼。這一行為立即引起了谷歌、微軟等科技巨頭的研究人員的積極響應,他們開始利用這些代碼開發 AI 應用程式,這也使得 Hugging Face 的标志——笑臉 emoji 為大批 AI 開發者所認知。
就在同年,谷歌釋出了基于雙向 Transformer 的大規模預訓練語言模型 BERT,引發了 AI 模型的"内卷時代"。
在這樣的背景下,Hugging Face 開始提供 AI 模型服務,随後進入了自己的"黃金時代"。
他們首先開源了 PyTorch-BERT,接着整合了他們之前在 NLP 領域貢獻的預訓練模型,釋出了 Transformers 庫。
Transformers 庫提供了數千種預訓練模型,支援 100 多種語言的文本分類、資訊提取、問答、摘要、翻譯、文本生成等。開發者可以借助 Transformers 庫輕松地使用 BERT、GPT、XLNet、T5、DistilBERT 等大型 NLP 模型來完成各種 AI 任務,大大節省了時間和計算資源。
總的來說,Transformers 庫為企業提供了即插即用的模型,無需進行二次開發。是以,許多企業開始使用 Transformers 庫,将其模型應用到産品開發和工作流程中。
得益于這些,Transformers 庫迅速走紅,成為了 GitHub 上增長最快的 AI 項目。
Hugging Face 在 Github 上的 Star 曲線,圖檔來自于 Lux Capital
Hugging Face 的聯合創始人 Clément Delangue 對此也感歎道,“我們釋出産品的時候并沒有過多考慮,社群的爆炸性增長讓我們感到驚訝。”
在面對衆多的開發者時,Hugging Face 自然而然地建立了自己的社群,即 Hugging Face Hub;同時,他們調整了産品戰略,不再隻專注于自然語言處理,而是開始探索機器學習的各個領域,并試圖找到新的應用場景,進而建構一套全面的開源産品生态。
到 2023 年 4 月,Hugging Face 已經共享了 166,894 個訓練模型和 26,900 個資料集,覆寫了包括 NLP、語音、生物學、時間序列、計算機視覺和強化學習等領域,建立了完整的 AI 開發生态。
這大大降低了進行相關研究和應用的門檻,使 Hugging Face 成為了 AI 社群中最有影響力的技術提供商。
目前,這些模型已經為數以萬計的企業提供了服務,幫助科研工作者和相關人員更好地構模組化型、更好地參與到産品和工作流程中,其中包括了 Meta、亞馬遜、微軟、谷歌等知名 AI 團隊。
在資本市場,Hugging Face 也同樣受到了高度關注。
在 2022 年 5 月,該團隊完成了由 Lux Capital 上司、紅杉資本參與的 1 億美元 C 輪融資,估值飙升至 20 億美元。
面對資本的追捧,Hugging Face 的創始人保持了冷靜,他們拒絕了一些“具有重要意義的收購邀約”,并堅決不會像 GitHub 那樣出售自己的業務。關于 Hugging Face 的未來,創始人有一些有趣的構想:“我們希望成為第一家以表情符号為股票代碼的上市公司,而不是傳統的三個字母。”
02
AI 大模型的 Github
Hugging Face,這個因開源而廣受關注的企業,特别重視社群建設,他們創立的 Hugging Face Hub 現已成為 AI 開發者的重要陣地。
Hugging Face Hub 是一個供大家探索、實驗、合作和發展機器學習技術的集中平台。在這裡,任何人都可以分享和探索模型、資料集等資源,友善大家合作共創,共同建構機器學習模型。Hugging Face Hub是以被譽為“機器學習的家園”。
它是 Hugging Face 堅持“開源”精神的産物,同時也是其核心價值。就像官網上的宣言一樣:AI 社群,共創未來。
Hugging Face 的創始人曾公開表示,“Hugging Face 的目标是,通過提供工具和開發者社群,讓更多的人能使用自然語言處理工具,實作他們的創新目标,使得自然語言處理技術更為便捷和易用。”
他還補充說,“沒有任何一家公司,包括科技巨頭,能夠獨立‘解決 AI 問題’,而實作這一目标的唯一途徑,就是以社群為中心,共享知識和資源。”
是以,公司緻力于在 Hugging Face Hub 上建立最大的模型、資料集、示範和名額的開源集合,使每個人都能利用機器學習進行探索、實驗、合作和技術建構,進而實作 AI 的“民主化”目标。
目前,Hugging Face Hub 提供超過 120,000 個模型(Models)、20,000 個資料集(Datasets)和 50,000 個示範應用程式(Spaces),而所有這些都是開源、公開、免費的。
Hugging Face Hub 對所有機器學習模型開放,并得到了 Transformers、Flair、Asteroid、ESPnet、Pyannote 等自然語言處理庫的支援,其中,最核心的自然語言處理庫就是 Transformers 庫。
Transformers 庫支援 PyTorch、TensorFlow 和 JAX 這三個架構間的互操作性,保證了在模型生命周期的每個階段都能靈活使用不同的架構。通過 Inference API(推理 API),使用者可以直接使用 Hugging Face 開發的模型與資料集,進行推理、遷移學習。這使得 Transformers 架構在性能和易用性上達到了業界領先水準,深刻地改變了深度學習在 NLP 領域的發展模式。
此外,該平台還提供了諸如模型版本控制、內建測試、共享和協作等實用工具,旨在幫助開發者更加高效地管理和共享模型及資料集。
是以,在 Hugging Face Hub 上,任何開發者或工程團隊都可以借助數千個模型的推理 API 接口,快速下載下傳并訓練最先進的預訓練模型,完成各種模式的常見任務,包括自然語言處理、計算機視覺、音頻、多模态等,在數分鐘之内即可建構出自己的機器學習驅動的應用程式,省卻了大量的時間和資源去從頭開始訓練模型。
基于此,他們還可以在自己的賬号下建立專屬倉庫,用于存儲和分享已訓練完成的模型、資料集和腳本,同時與強大的社群進行分享交流,輕松完成機器學習的工作流程。
簡而言之,Hugging Face Hub 提供了一個平台給研究者,讓他們展示并分享自己的模型,測試他人的模型,進而深入研究這些模型的内部結構,共同推動機器學習的發展。之前,AI 對前端開發者來說顯得遙不可及,因為隻有極少數的代碼生成的 AI 系統向公衆免費開放。
是以,Hugging Face 決定在社群中提供開源模型和 API,改變這種現狀,主動承擔起 AI 科研走向應用的這個過程中的繁複細小工作,使得所有 AI 從業者都能便利地使用這些研究模型和資源。用 Hugging Face 自己的話來說,他們所做的就是架起 AI 科研和應用之間的橋梁。
Hugging Face 還緻力于加強 Hub 的安全性,以確定使用者的代碼、模型和資料安全,讓使用者可以安心使用。
例如,他們在模型庫中添加了模型卡片,以告知使用者每個模型的限制和偏見,進而推動模型的負責任使用和開發;他們還在資料集中設定了通路控制功能,允許組織和個人基于許可和隐私考慮建立私有資料集,并自行處理其他使用者的通路請求。
值得一提的是,為了進一步推動自然語言處理技術的“民主化”,Hugging Face Hub 上還開設了自然語言處理課程——Hugging Face course。
該課程将使用 Hugging Face 生态系統中的資料庫(包括 Hugging Face Transformers、Hugging Face Datasets、Hugging Face Tokenizers 和 Hugging Face Accelerate),來教授有關自然語言處理 (NLP) 的知識。這個課程完全免費,甚至沒有廣告。
總的來說,Hugging Face Hub 與機器學習領域的 GitHub 非常相似。它是一個由社群開發者驅動的平台,提供豐富的資源,讓開發人員可以在機器學習模型、資料集和機器學習應用程式方面進行不斷的探索、創新和協作,通過分享知識和資源加速并推進 AI 的發展。
03
「開源」帶動「商業」
如何從提供“開放社群”和“開源”資源的公司轉變為盈利公司,這是一個值得探讨的問題。
首先,“開源”決策被證明是正确的。通過開源項目Transformers,Hugging Face已經積累了巨大的影響力,建立了一個大型開發者社群Hugging Face Hub,赢得了客戶和投資者的信賴,這使得它的商業轉型順利進行。
紅杉資本合夥人Pat Grady的看法是,“他們優先考慮應用而非變現,我認為這是正确的決定。他們看到了Transformer模型在NLP之外的應用,看到了成為類似GitHub的機會,這将不僅适用于NLP,也将擴充到機器學習的所有領域。”
回顧過去十年,很多初創公司的成功之路都證明了開源模式的商業可行性。例如MongoDB、Elastic、Confluent等公司都是快速增長的開源公司,它們實作了盈利并在市場中穩定生存。
Hugging Face的聯合創始人Clément堅信,“創業公司可以通過某種方式賦能開放的社群,這種方式産生的價值,遠超過通過建立專有工具産生的價值。”
他公開表示,“考慮到開源機器學習的價值和其主流地位,其使用量就等同于未來的收入。機器學習将成為技術開發的預設方式,Hugging Face将成為這方面的首選平台,創造出數十億美元的收入。”
是以,Hugging Face選擇了“以開源推動商業”這一商業發展路線,并在2021年開始提供付費功能。
現在,Hugging Face的盈利主要有三個途徑:
- 付費會員制度:通過提供更優質的服務和社群體驗來擷取收入。
- 資料托管:根據不同的參數需求提供按小時收費的托管服務。
- AI解決方案服務:這是目前的主推産品,為客戶提供定制的NLP、視覺等解決方案,收取技術服務費用。
從2020年開始,Hugging Face開始為企業定制自然語言模型,并推出了AutoTrain、Inference API & Infinity、Private Hub、Expert Support等面向不同開發者類型的個性化産品。
目前,已有1000多家公司成為Hugging Face的付費客戶,包括英特爾、高通、輝瑞、彭博社和eBay等大型企業。
2021年,Hugging Face實作了1000萬美元的收入,證明其“開源推動商業”戰略的成功。
正如Hugging Face的CEO,Clément所說,“公司不需要從創造的價值中擷取100%的利潤,隻需要将其中1%的價值變現,即使隻有1%,也足以使你成為一家高市值的公司。”
總的來說,Hugging Face依靠開源社群積累的影響力,然後逐漸擴充到SaaS産品和企業服務。這種漸進式的轉型使得Hugging Face在開源和商業化之間找到了良好的平衡,這也是它能夠成功的關鍵。這種發展政策使得Hugging Face在AI領域樹立了自己的獨特地位,并為其他AI初創公司提供了示例。
然而,開源生态系統也有其弱點,因為商業化的發展可能會破壞自然形成的社群環境。為了解決這個問題,Hugging Face采取了增強技術控制,維護自己的開源生态,并深入科研領域的方法。
“機器學習技術仍在早期階段,開源社群的潛力是巨大的。在未來5到10年,我們肯定會看到更多的開源機器學習公司嶄露頭角。”