天天看點

「開源笑臉」Hugging Face,讓OpenAI和谷歌顫抖

作者:小娜MentarloAI
「開源笑臉」Hugging Face,讓OpenAI和谷歌顫抖

他們志在打造AI領域的Github,短短幾年間,估值已飙升至20億美元。

"我們沒有任何防護措施,OpenAI也同樣沒有。"這是一位谷歌内部研究員在最近洩露的檔案中表達的觀點。他認為,在這場激烈的AI競争中,盡管谷歌和OpenAI你追我趕,但真正的勝利者可能并非這兩者之一,因為有一個第三方力量正在崛起。

這股力量就是"開源社群",這才是谷歌和OpenAI真正的競争對手。

而在開源社群中最具影響力的,無疑就是Hugging Face。作為AI領域的Github,它提供了衆多高品質的開源模型和工具,将研發成果最大化地惠及社群,大大降低了AI的技術門檻,推動了AI的"民主化"程序。

Hugging Face的創始人之一,Clément曾公開表示:"在自然語言處理或機器學習領域,最糟糕的情況就是與整個科學界和開源界競争。是以,我們不再選擇競争,而是選擇為開源社群和科學界提供支援。"

Hugging Face成立于2016年,短短幾年内連續獲得5輪融資,目前估值已經達到了20億美元。在Github上,它的星标數量已經超過了9.8萬,位列熱門資源庫之列。

那麼,這家公司到底做什麼的?它是如何逆襲成為開源界的"頂流"的?它的發展模式又是怎樣的呢?

01

NLP 開啟逆襲之路

Hugging Face是一家以自然語言處理(NLP)為核心的AI初創公司。

這個公司由曾經創辦過VideoNot.es、Mention,以及被Google收購的Moodstocks的法國連續創業者Clément Delangue和Thomas Wolf、Julien Chaumond共同創立。成立于2016年的Hugging Face,現在的總部位于美國紐約。

「開源笑臉」Hugging Face,讓OpenAI和谷歌顫抖

其中,創始人Clément Delangue和Thomas Wolf都是自然語言處理領域的專家,他們在推動Hugging Face發展的過程中,被認為是當代NLP領域的先驅。

他們創立Hugging Face的初衷,是想為年輕人建立一個"娛樂型"的"開放領域聊天機器人",就像科幻電影《她》中的AI一樣,可以和人聊各種話題,如天氣、朋友、愛情和體育比賽等。人們可以在閑暇時和它聊天,向它提問,甚至讓它生成一些有趣的圖檔。

這也就解釋了Hugging Face這個名字的由來,它源于一個張開雙手的笑臉emoji。

「開源笑臉」Hugging Face,讓OpenAI和谷歌顫抖

在 2017 年 3 月 9 日,Hugging Face App 在 iOS App Store 正式釋出,立即引起了廣泛的關注,并成功地獲得了來自 SV Angel、NBA 球星 Kevin Durant 等投資者的 120 萬美元的天使投資。

為了增強這個聊天機器人的自然語言處理(NLP)技能,Hugging Face 建立了一個庫,其中包含了各種機器學習模型和各類資料庫,這些資源用于訓練機器人進行情感分析、生成連貫回應、了解不同的對話主題等。

此外,Hugging Face 團隊還在 GitHub 上開源了庫的一部分,希望能夠通過使用者的共創獲得開發的靈感。

然而,到 2018 年,Hugging Face 的發展依然平淡無奇,于是他們決定開始免費線上分享應用程式的底層代碼。這一行為立即引起了谷歌、微軟等科技巨頭的研究人員的積極響應,他們開始利用這些代碼開發 AI 應用程式,這也使得 Hugging Face 的标志——笑臉 emoji 為大批 AI 開發者所認知。

就在同年,谷歌釋出了基于雙向 Transformer 的大規模預訓練語言模型 BERT,引發了 AI 模型的"内卷時代"。

在這樣的背景下,Hugging Face 開始提供 AI 模型服務,随後進入了自己的"黃金時代"。

他們首先開源了 PyTorch-BERT,接着整合了他們之前在 NLP 領域貢獻的預訓練模型,釋出了 Transformers 庫。

Transformers 庫提供了數千種預訓練模型,支援 100 多種語言的文本分類、資訊提取、問答、摘要、翻譯、文本生成等。開發者可以借助 Transformers 庫輕松地使用 BERT、GPT、XLNet、T5、DistilBERT 等大型 NLP 模型來完成各種 AI 任務,大大節省了時間和計算資源。

總的來說,Transformers 庫為企業提供了即插即用的模型,無需進行二次開發。是以,許多企業開始使用 Transformers 庫,将其模型應用到産品開發和工作流程中。

得益于這些,Transformers 庫迅速走紅,成為了 GitHub 上增長最快的 AI 項目。

「開源笑臉」Hugging Face,讓OpenAI和谷歌顫抖

Hugging Face 在 Github 上的 Star 曲線,圖檔來自于 Lux Capital

Hugging Face 的聯合創始人 Clément Delangue 對此也感歎道,“我們釋出産品的時候并沒有過多考慮,社群的爆炸性增長讓我們感到驚訝。”

在面對衆多的開發者時,Hugging Face 自然而然地建立了自己的社群,即 Hugging Face Hub;同時,他們調整了産品戰略,不再隻專注于自然語言處理,而是開始探索機器學習的各個領域,并試圖找到新的應用場景,進而建構一套全面的開源産品生态。

到 2023 年 4 月,Hugging Face 已經共享了 166,894 個訓練模型和 26,900 個資料集,覆寫了包括 NLP、語音、生物學、時間序列、計算機視覺和強化學習等領域,建立了完整的 AI 開發生态。

這大大降低了進行相關研究和應用的門檻,使 Hugging Face 成為了 AI 社群中最有影響力的技術提供商。

目前,這些模型已經為數以萬計的企業提供了服務,幫助科研工作者和相關人員更好地構模組化型、更好地參與到産品和工作流程中,其中包括了 Meta、亞馬遜、微軟、谷歌等知名 AI 團隊。

「開源笑臉」Hugging Face,讓OpenAI和谷歌顫抖

在資本市場,Hugging Face 也同樣受到了高度關注。

在 2022 年 5 月,該團隊完成了由 Lux Capital 上司、紅杉資本參與的 1 億美元 C 輪融資,估值飙升至 20 億美元。

面對資本的追捧,Hugging Face 的創始人保持了冷靜,他們拒絕了一些“具有重要意義的收購邀約”,并堅決不會像 GitHub 那樣出售自己的業務。關于 Hugging Face 的未來,創始人有一些有趣的構想:“我們希望成為第一家以表情符号為股票代碼的上市公司,而不是傳統的三個字母。”

02

AI 大模型的 Github

Hugging Face,這個因開源而廣受關注的企業,特别重視社群建設,他們創立的 Hugging Face Hub 現已成為 AI 開發者的重要陣地。

Hugging Face Hub 是一個供大家探索、實驗、合作和發展機器學習技術的集中平台。在這裡,任何人都可以分享和探索模型、資料集等資源,友善大家合作共創,共同建構機器學習模型。Hugging Face Hub是以被譽為“機器學習的家園”。

它是 Hugging Face 堅持“開源”精神的産物,同時也是其核心價值。就像官網上的宣言一樣:AI 社群,共創未來。

「開源笑臉」Hugging Face,讓OpenAI和谷歌顫抖

Hugging Face 的創始人曾公開表示,“Hugging Face 的目标是,通過提供工具和開發者社群,讓更多的人能使用自然語言處理工具,實作他們的創新目标,使得自然語言處理技術更為便捷和易用。”

他還補充說,“沒有任何一家公司,包括科技巨頭,能夠獨立‘解決 AI 問題’,而實作這一目标的唯一途徑,就是以社群為中心,共享知識和資源。”

是以,公司緻力于在 Hugging Face Hub 上建立最大的模型、資料集、示範和名額的開源集合,使每個人都能利用機器學習進行探索、實驗、合作和技術建構,進而實作 AI 的“民主化”目标。

目前,Hugging Face Hub 提供超過 120,000 個模型(Models)、20,000 個資料集(Datasets)和 50,000 個示範應用程式(Spaces),而所有這些都是開源、公開、免費的。

「開源笑臉」Hugging Face,讓OpenAI和谷歌顫抖

Hugging Face Hub 對所有機器學習模型開放,并得到了 Transformers、Flair、Asteroid、ESPnet、Pyannote 等自然語言處理庫的支援,其中,最核心的自然語言處理庫就是 Transformers 庫。

Transformers 庫支援 PyTorch、TensorFlow 和 JAX 這三個架構間的互操作性,保證了在模型生命周期的每個階段都能靈活使用不同的架構。通過 Inference API(推理 API),使用者可以直接使用 Hugging Face 開發的模型與資料集,進行推理、遷移學習。這使得 Transformers 架構在性能和易用性上達到了業界領先水準,深刻地改變了深度學習在 NLP 領域的發展模式。

「開源笑臉」Hugging Face,讓OpenAI和谷歌顫抖

此外,該平台還提供了諸如模型版本控制、內建測試、共享和協作等實用工具,旨在幫助開發者更加高效地管理和共享模型及資料集。

是以,在 Hugging Face Hub 上,任何開發者或工程團隊都可以借助數千個模型的推理 API 接口,快速下載下傳并訓練最先進的預訓練模型,完成各種模式的常見任務,包括自然語言處理、計算機視覺、音頻、多模态等,在數分鐘之内即可建構出自己的機器學習驅動的應用程式,省卻了大量的時間和資源去從頭開始訓練模型。

基于此,他們還可以在自己的賬号下建立專屬倉庫,用于存儲和分享已訓練完成的模型、資料集和腳本,同時與強大的社群進行分享交流,輕松完成機器學習的工作流程。

簡而言之,Hugging Face Hub 提供了一個平台給研究者,讓他們展示并分享自己的模型,測試他人的模型,進而深入研究這些模型的内部結構,共同推動機器學習的發展。之前,AI 對前端開發者來說顯得遙不可及,因為隻有極少數的代碼生成的 AI 系統向公衆免費開放。

是以,Hugging Face 決定在社群中提供開源模型和 API,改變這種現狀,主動承擔起 AI 科研走向應用的這個過程中的繁複細小工作,使得所有 AI 從業者都能便利地使用這些研究模型和資源。用 Hugging Face 自己的話來說,他們所做的就是架起 AI 科研和應用之間的橋梁。

Hugging Face 還緻力于加強 Hub 的安全性,以確定使用者的代碼、模型和資料安全,讓使用者可以安心使用。

例如,他們在模型庫中添加了模型卡片,以告知使用者每個模型的限制和偏見,進而推動模型的負責任使用和開發;他們還在資料集中設定了通路控制功能,允許組織和個人基于許可和隐私考慮建立私有資料集,并自行處理其他使用者的通路請求。

值得一提的是,為了進一步推動自然語言處理技術的“民主化”,Hugging Face Hub 上還開設了自然語言處理課程——Hugging Face course。

該課程将使用 Hugging Face 生态系統中的資料庫(包括 Hugging Face Transformers、Hugging Face Datasets、Hugging Face Tokenizers 和 Hugging Face Accelerate),來教授有關自然語言處理 (NLP) 的知識。這個課程完全免費,甚至沒有廣告。

「開源笑臉」Hugging Face,讓OpenAI和谷歌顫抖

總的來說,Hugging Face Hub 與機器學習領域的 GitHub 非常相似。它是一個由社群開發者驅動的平台,提供豐富的資源,讓開發人員可以在機器學習模型、資料集和機器學習應用程式方面進行不斷的探索、創新和協作,通過分享知識和資源加速并推進 AI 的發展。

03

「開源」帶動「商業」

如何從提供“開放社群”和“開源”資源的公司轉變為盈利公司,這是一個值得探讨的問題。

首先,“開源”決策被證明是正确的。通過開源項目Transformers,Hugging Face已經積累了巨大的影響力,建立了一個大型開發者社群Hugging Face Hub,赢得了客戶和投資者的信賴,這使得它的商業轉型順利進行。

紅杉資本合夥人Pat Grady的看法是,“他們優先考慮應用而非變現,我認為這是正确的決定。他們看到了Transformer模型在NLP之外的應用,看到了成為類似GitHub的機會,這将不僅适用于NLP,也将擴充到機器學習的所有領域。”

回顧過去十年,很多初創公司的成功之路都證明了開源模式的商業可行性。例如MongoDB、Elastic、Confluent等公司都是快速增長的開源公司,它們實作了盈利并在市場中穩定生存。

Hugging Face的聯合創始人Clément堅信,“創業公司可以通過某種方式賦能開放的社群,這種方式産生的價值,遠超過通過建立專有工具産生的價值。”

他公開表示,“考慮到開源機器學習的價值和其主流地位,其使用量就等同于未來的收入。機器學習将成為技術開發的預設方式,Hugging Face将成為這方面的首選平台,創造出數十億美元的收入。”

是以,Hugging Face選擇了“以開源推動商業”這一商業發展路線,并在2021年開始提供付費功能。

「開源笑臉」Hugging Face,讓OpenAI和谷歌顫抖

現在,Hugging Face的盈利主要有三個途徑:

  1. 付費會員制度:通過提供更優質的服務和社群體驗來擷取收入。
  2. 資料托管:根據不同的參數需求提供按小時收費的托管服務。
  3. AI解決方案服務:這是目前的主推産品,為客戶提供定制的NLP、視覺等解決方案,收取技術服務費用。

從2020年開始,Hugging Face開始為企業定制自然語言模型,并推出了AutoTrain、Inference API & Infinity、Private Hub、Expert Support等面向不同開發者類型的個性化産品。

目前,已有1000多家公司成為Hugging Face的付費客戶,包括英特爾、高通、輝瑞、彭博社和eBay等大型企業。

2021年,Hugging Face實作了1000萬美元的收入,證明其“開源推動商業”戰略的成功。

正如Hugging Face的CEO,Clément所說,“公司不需要從創造的價值中擷取100%的利潤,隻需要将其中1%的價值變現,即使隻有1%,也足以使你成為一家高市值的公司。”

總的來說,Hugging Face依靠開源社群積累的影響力,然後逐漸擴充到SaaS産品和企業服務。這種漸進式的轉型使得Hugging Face在開源和商業化之間找到了良好的平衡,這也是它能夠成功的關鍵。這種發展政策使得Hugging Face在AI領域樹立了自己的獨特地位,并為其他AI初創公司提供了示例。

然而,開源生态系統也有其弱點,因為商業化的發展可能會破壞自然形成的社群環境。為了解決這個問題,Hugging Face采取了增強技術控制,維護自己的開源生态,并深入科研領域的方法。

“機器學習技術仍在早期階段,開源社群的潛力是巨大的。在未來5到10年,我們肯定會看到更多的開源機器學習公司嶄露頭角。”

繼續閱讀