天天看点

「开源笑脸」Hugging Face,让OpenAI和谷歌颤抖

作者:小娜MentarloAI
「开源笑脸」Hugging Face,让OpenAI和谷歌颤抖

他们志在打造AI领域的Github,短短几年间,估值已飙升至20亿美元。

"我们没有任何防护措施,OpenAI也同样没有。"这是一位谷歌内部研究员在最近泄露的文件中表达的观点。他认为,在这场激烈的AI竞争中,尽管谷歌和OpenAI你追我赶,但真正的胜利者可能并非这两者之一,因为有一个第三方力量正在崛起。

这股力量就是"开源社区",这才是谷歌和OpenAI真正的竞争对手。

而在开源社区中最具影响力的,无疑就是Hugging Face。作为AI领域的Github,它提供了众多高质量的开源模型和工具,将研发成果最大化地惠及社区,大大降低了AI的技术门槛,推动了AI的"民主化"进程。

Hugging Face的创始人之一,Clément曾公开表示:"在自然语言处理或机器学习领域,最糟糕的情况就是与整个科学界和开源界竞争。因此,我们不再选择竞争,而是选择为开源社区和科学界提供支持。"

Hugging Face成立于2016年,短短几年内连续获得5轮融资,目前估值已经达到了20亿美元。在Github上,它的星标数量已经超过了9.8万,位列热门资源库之列。

那么,这家公司到底做什么的?它是如何逆袭成为开源界的"顶流"的?它的发展模式又是怎样的呢?

01

NLP 开启逆袭之路

Hugging Face是一家以自然语言处理(NLP)为核心的AI初创公司。

这个公司由曾经创办过VideoNot.es、Mention,以及被Google收购的Moodstocks的法国连续创业者Clément Delangue和Thomas Wolf、Julien Chaumond共同创立。成立于2016年的Hugging Face,现在的总部位于美国纽约。

「开源笑脸」Hugging Face,让OpenAI和谷歌颤抖

其中,创始人Clément Delangue和Thomas Wolf都是自然语言处理领域的专家,他们在推动Hugging Face发展的过程中,被认为是当代NLP领域的先驱。

他们创立Hugging Face的初衷,是想为年轻人创建一个"娱乐型"的"开放领域聊天机器人",就像科幻电影《她》中的AI一样,可以和人聊各种话题,如天气、朋友、爱情和体育比赛等。人们可以在闲暇时和它聊天,向它提问,甚至让它生成一些有趣的图片。

这也就解释了Hugging Face这个名字的由来,它源于一个张开双手的笑脸emoji。

「开源笑脸」Hugging Face,让OpenAI和谷歌颤抖

在 2017 年 3 月 9 日,Hugging Face App 在 iOS App Store 正式发布,立即引起了广泛的关注,并成功地获得了来自 SV Angel、NBA 球星 Kevin Durant 等投资者的 120 万美元的天使投资。

为了增强这个聊天机器人的自然语言处理(NLP)技能,Hugging Face 创建了一个库,其中包含了各种机器学习模型和各类数据库,这些资源用于训练机器人进行情感分析、生成连贯回应、理解不同的对话主题等。

此外,Hugging Face 团队还在 GitHub 上开源了库的一部分,希望能够通过用户的共创获得开发的灵感。

然而,到 2018 年,Hugging Face 的发展依然平淡无奇,于是他们决定开始免费在线分享应用程序的底层代码。这一行为立即引起了谷歌、微软等科技巨头的研究人员的积极响应,他们开始利用这些代码开发 AI 应用程序,这也使得 Hugging Face 的标志——笑脸 emoji 为大批 AI 开发者所认知。

就在同年,谷歌发布了基于双向 Transformer 的大规模预训练语言模型 BERT,引发了 AI 模型的"内卷时代"。

在这样的背景下,Hugging Face 开始提供 AI 模型服务,随后进入了自己的"黄金时代"。

他们首先开源了 PyTorch-BERT,接着整合了他们之前在 NLP 领域贡献的预训练模型,发布了 Transformers 库。

Transformers 库提供了数千种预训练模型,支持 100 多种语言的文本分类、信息提取、问答、摘要、翻译、文本生成等。开发者可以借助 Transformers 库轻松地使用 BERT、GPT、XLNet、T5、DistilBERT 等大型 NLP 模型来完成各种 AI 任务,大大节省了时间和计算资源。

总的来说,Transformers 库为企业提供了即插即用的模型,无需进行二次开发。因此,许多企业开始使用 Transformers 库,将其模型应用到产品开发和工作流程中。

得益于这些,Transformers 库迅速走红,成为了 GitHub 上增长最快的 AI 项目。

「开源笑脸」Hugging Face,让OpenAI和谷歌颤抖

Hugging Face 在 Github 上的 Star 曲线,图片来自于 Lux Capital

Hugging Face 的联合创始人 Clément Delangue 对此也感叹道,“我们发布产品的时候并没有过多考虑,社区的爆炸性增长让我们感到惊讶。”

在面对众多的开发者时,Hugging Face 自然而然地建立了自己的社区,即 Hugging Face Hub;同时,他们调整了产品战略,不再只专注于自然语言处理,而是开始探索机器学习的各个领域,并试图找到新的应用场景,从而构建一套全面的开源产品生态。

到 2023 年 4 月,Hugging Face 已经共享了 166,894 个训练模型和 26,900 个数据集,覆盖了包括 NLP、语音、生物学、时间序列、计算机视觉和强化学习等领域,建立了完整的 AI 开发生态。

这大大降低了进行相关研究和应用的门槛,使 Hugging Face 成为了 AI 社区中最有影响力的技术提供商。

目前,这些模型已经为数以万计的企业提供了服务,帮助科研工作者和相关人员更好地构建模型、更好地参与到产品和工作流程中,其中包括了 Meta、亚马逊、微软、谷歌等知名 AI 团队。

「开源笑脸」Hugging Face,让OpenAI和谷歌颤抖

在资本市场,Hugging Face 也同样受到了高度关注。

在 2022 年 5 月,该团队完成了由 Lux Capital 领导、红杉资本参与的 1 亿美元 C 轮融资,估值飙升至 20 亿美元。

面对资本的追捧,Hugging Face 的创始人保持了冷静,他们拒绝了一些“具有重要意义的收购邀约”,并坚决不会像 GitHub 那样出售自己的业务。关于 Hugging Face 的未来,创始人有一些有趣的构想:“我们希望成为第一家以表情符号为股票代码的上市公司,而不是传统的三个字母。”

02

AI 大模型的 Github

Hugging Face,这个因开源而广受关注的企业,特别重视社区建设,他们创立的 Hugging Face Hub 现已成为 AI 开发者的重要阵地。

Hugging Face Hub 是一个供大家探索、实验、合作和发展机器学习技术的集中平台。在这里,任何人都可以分享和探索模型、数据集等资源,方便大家合作共创,共同构建机器学习模型。Hugging Face Hub因此被誉为“机器学习的家园”。

它是 Hugging Face 坚持“开源”精神的产物,同时也是其核心价值。就像官网上的宣言一样:AI 社区,共创未来。

「开源笑脸」Hugging Face,让OpenAI和谷歌颤抖

Hugging Face 的创始人曾公开表示,“Hugging Face 的目标是,通过提供工具和开发者社区,让更多的人能使用自然语言处理工具,实现他们的创新目标,使得自然语言处理技术更为便捷和易用。”

他还补充说,“没有任何一家公司,包括科技巨头,能够独立‘解决 AI 问题’,而实现这一目标的唯一途径,就是以社区为中心,共享知识和资源。”

因此,公司致力于在 Hugging Face Hub 上建立最大的模型、数据集、演示和指标的开源集合,使每个人都能利用机器学习进行探索、实验、合作和技术构建,进而实现 AI 的“民主化”目标。

目前,Hugging Face Hub 提供超过 120,000 个模型(Models)、20,000 个数据集(Datasets)和 50,000 个演示应用程序(Spaces),而所有这些都是开源、公开、免费的。

「开源笑脸」Hugging Face,让OpenAI和谷歌颤抖

Hugging Face Hub 对所有机器学习模型开放,并得到了 Transformers、Flair、Asteroid、ESPnet、Pyannote 等自然语言处理库的支持,其中,最核心的自然语言处理库就是 Transformers 库。

Transformers 库支持 PyTorch、TensorFlow 和 JAX 这三个框架间的互操作性,保证了在模型生命周期的每个阶段都能灵活使用不同的框架。通过 Inference API(推理 API),用户可以直接使用 Hugging Face 开发的模型与数据集,进行推理、迁移学习。这使得 Transformers 框架在性能和易用性上达到了业界领先水平,深刻地改变了深度学习在 NLP 领域的发展模式。

「开源笑脸」Hugging Face,让OpenAI和谷歌颤抖

此外,该平台还提供了诸如模型版本控制、集成测试、共享和协作等实用工具,旨在帮助开发者更加高效地管理和共享模型及数据集。

因此,在 Hugging Face Hub 上,任何开发者或工程团队都可以借助数千个模型的推理 API 接口,快速下载并训练最先进的预训练模型,完成各种模式的常见任务,包括自然语言处理、计算机视觉、音频、多模态等,在数分钟之内即可构建出自己的机器学习驱动的应用程序,省却了大量的时间和资源去从头开始训练模型。

基于此,他们还可以在自己的账号下创建专属仓库,用于存储和分享已训练完成的模型、数据集和脚本,同时与强大的社区进行分享交流,轻松完成机器学习的工作流程。

简而言之,Hugging Face Hub 提供了一个平台给研究者,让他们展示并分享自己的模型,测试他人的模型,从而深入研究这些模型的内部结构,共同推动机器学习的发展。之前,AI 对前端开发者来说显得遥不可及,因为只有极少数的代码生成的 AI 系统向公众免费开放。

因此,Hugging Face 决定在社区中提供开源模型和 API,改变这种现状,主动承担起 AI 科研走向应用的这个过程中的繁复细小工作,使得所有 AI 从业者都能便利地使用这些研究模型和资源。用 Hugging Face 自己的话来说,他们所做的就是架起 AI 科研和应用之间的桥梁。

Hugging Face 还致力于加强 Hub 的安全性,以确保用户的代码、模型和数据安全,让用户可以安心使用。

例如,他们在模型库中添加了模型卡片,以告知用户每个模型的限制和偏见,从而推动模型的负责任使用和开发;他们还在数据集中设定了访问控制功能,允许组织和个人基于许可和隐私考虑创建私有数据集,并自行处理其他用户的访问请求。

值得一提的是,为了进一步推动自然语言处理技术的“民主化”,Hugging Face Hub 上还开设了自然语言处理课程——Hugging Face course。

该课程将使用 Hugging Face 生态系统中的数据库(包括 Hugging Face Transformers、Hugging Face Datasets、Hugging Face Tokenizers 和 Hugging Face Accelerate),来教授有关自然语言处理 (NLP) 的知识。这个课程完全免费,甚至没有广告。

「开源笑脸」Hugging Face,让OpenAI和谷歌颤抖

总的来说,Hugging Face Hub 与机器学习领域的 GitHub 非常相似。它是一个由社区开发者驱动的平台,提供丰富的资源,让开发人员可以在机器学习模型、数据集和机器学习应用程序方面进行不断的探索、创新和协作,通过分享知识和资源加速并推进 AI 的发展。

03

「开源」带动「商业」

如何从提供“开放社区”和“开源”资源的公司转变为盈利公司,这是一个值得探讨的问题。

首先,“开源”决策被证明是正确的。通过开源项目Transformers,Hugging Face已经积累了巨大的影响力,建立了一个大型开发者社区Hugging Face Hub,赢得了客户和投资者的信赖,这使得它的商业转型顺利进行。

红杉资本合伙人Pat Grady的看法是,“他们优先考虑应用而非变现,我认为这是正确的决定。他们看到了Transformer模型在NLP之外的应用,看到了成为类似GitHub的机会,这将不仅适用于NLP,也将扩展到机器学习的所有领域。”

回顾过去十年,很多初创公司的成功之路都证明了开源模式的商业可行性。例如MongoDB、Elastic、Confluent等公司都是快速增长的开源公司,它们实现了盈利并在市场中稳定生存。

Hugging Face的联合创始人Clément坚信,“创业公司可以通过某种方式赋能开放的社区,这种方式产生的价值,远超过通过建立专有工具产生的价值。”

他公开表示,“考虑到开源机器学习的价值和其主流地位,其使用量就等同于未来的收入。机器学习将成为技术开发的默认方式,Hugging Face将成为这方面的首选平台,创造出数十亿美元的收入。”

因此,Hugging Face选择了“以开源推动商业”这一商业发展路线,并在2021年开始提供付费功能。

「开源笑脸」Hugging Face,让OpenAI和谷歌颤抖

现在,Hugging Face的盈利主要有三个途径:

  1. 付费会员制度:通过提供更优质的服务和社区体验来获取收入。
  2. 数据托管:根据不同的参数需求提供按小时收费的托管服务。
  3. AI解决方案服务:这是目前的主推产品,为客户提供定制的NLP、视觉等解决方案,收取技术服务费用。

从2020年开始,Hugging Face开始为企业定制自然语言模型,并推出了AutoTrain、Inference API & Infinity、Private Hub、Expert Support等面向不同开发者类型的个性化产品。

目前,已有1000多家公司成为Hugging Face的付费客户,包括英特尔、高通、辉瑞、彭博社和eBay等大型企业。

2021年,Hugging Face实现了1000万美元的收入,证明其“开源推动商业”战略的成功。

正如Hugging Face的CEO,Clément所说,“公司不需要从创造的价值中获取100%的利润,只需要将其中1%的价值变现,即使只有1%,也足以使你成为一家高市值的公司。”

总的来说,Hugging Face依靠开源社区积累的影响力,然后逐步扩展到SaaS产品和企业服务。这种渐进式的转型使得Hugging Face在开源和商业化之间找到了良好的平衡,这也是它能够成功的关键。这种发展策略使得Hugging Face在AI领域树立了自己的独特地位,并为其他AI初创公司提供了示例。

然而,开源生态系统也有其弱点,因为商业化的发展可能会破坏自然形成的社区环境。为了解决这个问题,Hugging Face采取了增强技术控制,维护自己的开源生态,并深入科研领域的方法。

“机器学习技术仍在早期阶段,开源社区的潜力是巨大的。在未来5到10年,我们肯定会看到更多的开源机器学习公司崭露头角。”

继续阅读