天天看点

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

在个性化图像生成领域,传统如 DreamBooth、Textual Inversion 和 LoRAs,通常依赖于在特定主题(例如人物或风格)的数据集上进行训练。这些方法虽然在生成特定主题图像方面表现出色,但由于需要对整个网络进行更新或进行长时间的定制化训练,它们在实际应用中往往难以与社区现有的预训练模型兼容,且难以实现快速和低成本的部署。与此同时,基于单张图片特征的嵌入方法,例如 FaceStudio、PhotoMaker 和 IP-Adapter,虽然避免了全面训练的需求,但它们要么需要对文生图模型进行全参数训练或PEFT微调,这可能会损害模型的泛化能力,要么在保持图像高保真度方面存在不足。为了解决这些技术挑战,小红书 InstantX 团队提出 InstantID,该模型不训练文生图模型的 UNet 部分,仅训练可插拔模块,在推理过程中无需 test-time tuning,在几乎不影响文本控制能力的情况下,实现高保真 ID 保持。

最近,全网都被一款超酷的 AI 头像生成工具 InstantID 刷屏了。只需一张照片,无需模型训练,短短几十秒内,生成多种风格强烈的写真,还能保持面貌特征不变。直接拿神仙姐姐的图试了一下,效果好到爆炸!

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

ChatGPT 之父奥特曼变身,对你做出多种夸张表情,非常有戏~

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

中国诗圣杜甫穿越时空,InstantID 让他从二维画卷跃然于立体世界。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

小红书推出的这款开源力作,一周之内 GitHub 斩获四千星标。

深度学习科学家 Yann LeCun 也发来肯定,在线许愿钢铁侠套装。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

目前 InstantID 位列 HuggingFace Space Trending 榜首,欢迎在线使用:

线上体验: https://huggingface.co/spaces/InstantX/InstantID
小红书开源InstantID,秒级高保真人像风格化的新“魔法”
论文题目: InstantID: Zero-shot Identity-Preserving Generation in Seconds 论文链接:https://arxiv.org/abs/2401.07519 代码链接: https://github.com/InstantID/InstantID 项目主页:https://instantid.github.io 线上Demo页面: https://huggingface.co/spaces/InstantX/InstantID

在个性化图像生成领域,传统如 DreamBooth、Textual Inversion 和 LoRAs,通常依赖于在特定主题(例如人物或风格)的数据集上进行训练。这些方法虽然在生成特定主题图像方面表现出色,但由于需要对整个网络进行更新或进行长时间的定制化训练,它们在实际应用中往往难以与社区现有的预训练模型兼容,且难以实现快速和低成本的部署。与此同时,基于单张图片特征的嵌入方法,例如 FaceStudio、PhotoMaker 和 IP-Adapter,虽然避免了全面训练的需求,但它们要么需要对文生图模型进行全参数训练或PEFT微调,这可能会损害模型的泛化能力,要么在保持图像高保真度方面存在不足。为了解决这些技术挑战,小红书 InstantX 团队提出 InstantID,该模型不训练文生图模型的 UNet 部分,仅训练可插拔模块,在推理过程中无需 test-time tuning,在几乎不影响文本控制能力的情况下,实现高保真 ID 保持。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

InstantID 是一个高效的、轻量级、可插拔的适配器,赋予预训练的文本到图像扩散模型以 ID 保存的能力。重点工作分为以下几步:

  • 步骤 1: 将弱对齐的 CLIP 特征替换为强语义的人脸特征;
  • 步骤 2: 人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入;
  • 步骤 3: 提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力

下图为利用 InstantID 进行风格化的结果,输入仅为最左侧的人物图像。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

文章的主要贡献如下:

(1) InstantID 作为一种全新的 ID 保留方法,有效弥补了训练效率与 ID 保真度之间的差距。

(2)InstantID 是可插拔的,与目前社区内文生图基础模型、LoRAs、ControlNets 等完全兼容,可以零成本地在推理过程中保持人物 ID 属性。此外,InstantID 保持了良好的文本编辑能力,使 ID 能够丝滑地嵌入到各种风格当中。

(3)实验结果表明,InstantID 不仅超越目前基于单张图片特征进行嵌入的方法(IP-Adapter-FaceID),还与 ROOP、LoRAs 等方法在特定场景下不分伯仲。它卓越的性能和效率激发了其在一系列实际应用中的巨大潜力,例如新颖的视图合成、ID 插值、多 ID 和多风格合成等。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

仅给定一张参考 ID 图像,InstantID 的目标是从单个参考 ID 图像生成具有各种姿势或风格的定制图像,同时保证高保真度。上图详细概述了 InstantID 的方法。它包含三个关键组成部分:(1) 鲁棒的人脸表征;(2) 具有解耦功能的交叉注意力,支持 Image Prompt;(3) IdentityNet,引入额外的弱空间控制对参考面部图像的复杂特征进行编码。特别注意的是:

  1. 由于 CLIP 只提供了弱语义表征,无法在人脸等强语义场景下直接应用,团队直接采用预训练的人脸编码器(如 antelopev2 模型)来提取人脸特征。
  2. 如先前方法所述,预训练的文本到图像扩散模型中的图像提示功能能够增强了文本提示,特别是对于难以用文字描述的内容,因此,团队采用和 IP-Adapter 一致的具有解耦功能的交叉注意力机制,但差别在于 InstantID 使用人脸特征,而非 CLIP 表征。
  3. 引入 IdentityNet 来对人脸图像进行编码。在实现中,IdentityNet 采用与 ControlNet 一致的残差结构,从而保持原始模型的兼容性。在 IdentityNet 中,主要有两个对于原版 ControlNet 的修改:
  • 只使用五个面部关键点,而不是细粒度的 OpenPose 面部关键点 (两个用于眼睛,一个用于鼻子,两个用于嘴巴)用于条件输入。
  • 消除文本提示并使用 ID 嵌入作为条件加入到 ControlNet 中的交叉注意力层。

从实验结果上来看,作者首先展示了方法的稳健性、可编辑性和兼容性,分别对应在空文本、编辑文本、额外使用 ControlNets 下的生成效果。可以看到,InstantID 仍然保持了较好的文本控制能力,同时与开源的 ControlNet 模型兼容。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

同时该方法也支持多张图注入,来进一步提升效果。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

InstantID 与目前社区内主流的三类方法进行对比。(1)基于单图特征注入(IP-Adapter 与 PhotoMaker)。相比之下,IP-Adapter 具有可插拔性,兼容社区模型,且其 FaceID 版本的人脸保真度有明显提升,但是对于文本的控制能力出现明显退化;而近期新推出的 PhotoMaker,需要训练整个模型(虽然采用了 LoRA 的方式),风格退化问题减弱,但其人脸保真度未见明显提升,甚至不如 IP-Adapter-FaceID。InstantID 很好地兼顾了人脸保真度和文本控制能力。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

(2)基于微调的人物 LoRAs。LoRAs 需要依赖高质量和大量数据,而 InstantID 只需要一张图,便可实现风格强烈化写真。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

(3)非扩散模型的换脸模型 Inswapper。相比而言,InstantID 在面孔和背景的融合上更加灵活。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

此外,InstantID 还支持了多视角生成、ID 插值、多 ID 生成,作为潜在应用场景。

(1)多视角生成:从单一图像中提取特征,并生成该对象在不同参考视角下的多种视图,从而创造出一个全方位的三维视觉效果。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

(2)ID 插值:在两个身份特征之间平滑过渡,霉霉和幂幂合体,50% 的杨幂+ 50% 的泰勒。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

(3)多 ID + 多风格的生成,多个个体特征和多种艺术风格,呈现在同一张图像中,毫不违和。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

基于高性能的人像注入和编辑能力,InstantID 可以支持很多衍生应用玩法。比如,快速低门槛的真人写真,时间快成本低。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

还有夸张五官人像定制,可玩性强。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

以及非人像混合定制,这类独一无二的艺术形象,很适合养萌宠的人士。

小红书开源InstantID,秒级高保真人像风格化的新“魔法”

目前小红书该开源项目已开放模型推理代码,欢迎线上体验或离线部署,直接感受 InstantID 的魅力。

代码地址: https://github.com/InstantID/InstantID 项目地址: https://instantid.github.io

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

[email protected]

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>>> 添加小编微信!

关于我“门”▼

将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

小红书开源InstantID,秒级高保真人像风格化的新“魔法”