天天看點

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

在個性化圖像生成領域,傳統如 DreamBooth、Textual Inversion 和 LoRAs,通常依賴于在特定主題(例如人物或風格)的資料集上進行訓練。這些方法雖然在生成特定主題圖像方面表現出色,但由于需要對整個網絡進行更新或進行長時間的定制化訓練,它們在實際應用中往往難以與社群現有的預訓練模型相容,且難以實作快速和低成本的部署。與此同時,基于單張圖檔特征的嵌入方法,例如 FaceStudio、PhotoMaker 和 IP-Adapter,雖然避免了全面訓練的需求,但它們要麼需要對文生圖模型進行全參數訓練或PEFT微調,這可能會損害模型的泛化能力,要麼在保持圖像高保真度方面存在不足。為了解決這些技術挑戰,小紅書 InstantX 團隊提出 InstantID,該模型不訓練文生圖模型的 UNet 部分,僅訓練可插拔子產品,在推理過程中無需 test-time tuning,在幾乎不影響文本控制能力的情況下,實作高保真 ID 保持。

最近,全網都被一款超酷的 AI 頭像生成工具 InstantID 刷屏了。隻需一張照片,無需模型訓練,短短幾十秒内,生成多種風格強烈的寫真,還能保持面貌特征不變。直接拿神仙姐姐的圖試了一下,效果好到爆炸!

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

ChatGPT 之父奧特曼變身,對你做出多種誇張表情,非常有戲~

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

中國詩聖杜甫穿越時空,InstantID 讓他從二維畫卷躍然于立體世界。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

小紅書推出的這款開源力作,一周之内 GitHub 斬獲四千星标。

深度學習科學家 Yann LeCun 也發來肯定,線上許願鋼鐵俠套裝。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

目前 InstantID 位列 HuggingFace Space Trending 榜首,歡迎線上使用:

線上體驗: https://huggingface.co/spaces/InstantX/InstantID
小紅書開源InstantID,秒級高保真人像風格化的新“魔法”
論文題目: InstantID: Zero-shot Identity-Preserving Generation in Seconds 論文連結:https://arxiv.org/abs/2401.07519 代碼連結: https://github.com/InstantID/InstantID 項目首頁:https://instantid.github.io 線上Demo頁面: https://huggingface.co/spaces/InstantX/InstantID

在個性化圖像生成領域,傳統如 DreamBooth、Textual Inversion 和 LoRAs,通常依賴于在特定主題(例如人物或風格)的資料集上進行訓練。這些方法雖然在生成特定主題圖像方面表現出色,但由于需要對整個網絡進行更新或進行長時間的定制化訓練,它們在實際應用中往往難以與社群現有的預訓練模型相容,且難以實作快速和低成本的部署。與此同時,基于單張圖檔特征的嵌入方法,例如 FaceStudio、PhotoMaker 和 IP-Adapter,雖然避免了全面訓練的需求,但它們要麼需要對文生圖模型進行全參數訓練或PEFT微調,這可能會損害模型的泛化能力,要麼在保持圖像高保真度方面存在不足。為了解決這些技術挑戰,小紅書 InstantX 團隊提出 InstantID,該模型不訓練文生圖模型的 UNet 部分,僅訓練可插拔子產品,在推理過程中無需 test-time tuning,在幾乎不影響文本控制能力的情況下,實作高保真 ID 保持。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

InstantID 是一個高效的、輕量級、可插拔的擴充卡,賦予預訓練的文本到圖像擴散模型以 ID 儲存的能力。重點工作分為以下幾步:

  • 步驟 1: 将弱對齊的 CLIP 特征替換為強語義的人臉特征;
  • 步驟 2: 人臉圖像的特征在 Cross-Attention 中作為 Image Prompt 嵌入;
  • 步驟 3: 提出 IdentityNet 來對人臉施加強語義和弱空間的條件控制,進而增強 ID 的保真度以及文本的控制力

下圖為利用 InstantID 進行風格化的結果,輸入僅為最左側的人物圖像。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

文章的主要貢獻如下:

(1) InstantID 作為一種全新的 ID 保留方法,有效彌補了訓練效率與 ID 保真度之間的差距。

(2)InstantID 是可插拔的,與目前社群内文生圖基礎模型、LoRAs、ControlNets 等完全相容,可以零成本地在推理過程中保持人物 ID 屬性。此外,InstantID 保持了良好的文本編輯能力,使 ID 能夠絲滑地嵌入到各種風格當中。

(3)實驗結果表明,InstantID 不僅超越目前基于單張圖檔特征進行嵌入的方法(IP-Adapter-FaceID),還與 ROOP、LoRAs 等方法在特定場景下不分伯仲。它卓越的性能和效率激發了其在一系列實際應用中的巨大潛力,例如新穎的視圖合成、ID 插值、多 ID 和多風格合成等。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

僅給定一張參考 ID 圖像,InstantID 的目标是從單個參考 ID 圖像生成具有各種姿勢或風格的定制圖像,同時保證高保真度。上圖詳細概述了 InstantID 的方法。它包含三個關鍵組成部分:(1) 魯棒的人臉表征;(2) 具有解耦功能的交叉注意力,支援 Image Prompt;(3) IdentityNet,引入額外的弱空間控制對參考面部圖像的複雜特征進行編碼。特别注意的是:

  1. 由于 CLIP 隻提供了弱語義表征,無法在人臉等強語義場景下直接應用,團隊直接采用預訓練的人臉編碼器(如 antelopev2 模型)來提取人臉特征。
  2. 如先前方法所述,預訓練的文本到圖像擴散模型中的圖像提示功能能夠增強了文本提示,特别是對于難以用文字描述的内容,是以,團隊采用和 IP-Adapter 一緻的具有解耦功能的交叉注意力機制,但差别在于 InstantID 使用人臉特征,而非 CLIP 表征。
  3. 引入 IdentityNet 來對人臉圖像進行編碼。在實作中,IdentityNet 采用與 ControlNet 一緻的殘差結構,進而保持原始模型的相容性。在 IdentityNet 中,主要有兩個對于原版 ControlNet 的修改:
  • 隻使用五個面部關鍵點,而不是細粒度的 OpenPose 面部關鍵點 (兩個用于眼睛,一個用于鼻子,兩個用于嘴巴)用于條件輸入。
  • 消除文本提示并使用 ID 嵌入作為條件加入到 ControlNet 中的交叉注意力層。

從實驗結果上來看,作者首先展示了方法的穩健性、可編輯性和相容性,分别對應在空文本、編輯文本、額外使用 ControlNets 下的生成效果。可以看到,InstantID 仍然保持了較好的文本控制能力,同時與開源的 ControlNet 模型相容。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

同時該方法也支援多張圖注入,來進一步提升效果。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

InstantID 與目前社群内主流的三類方法進行對比。(1)基于單圖特征注入(IP-Adapter 與 PhotoMaker)。相比之下,IP-Adapter 具有可插拔性,相容社群模型,且其 FaceID 版本的人臉保真度有明顯提升,但是對于文本的控制能力出現明顯退化;而近期新推出的 PhotoMaker,需要訓練整個模型(雖然采用了 LoRA 的方式),風格退化問題減弱,但其人臉保真度未見明顯提升,甚至不如 IP-Adapter-FaceID。InstantID 很好地兼顧了人臉保真度和文本控制能力。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

(2)基于微調的人物 LoRAs。LoRAs 需要依賴高品質和大量資料,而 InstantID 隻需要一張圖,便可實作風格強烈化寫真。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

(3)非擴散模型的換臉模型 Inswapper。相比而言,InstantID 在面孔和背景的融合上更加靈活。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

此外,InstantID 還支援了多視角生成、ID 插值、多 ID 生成,作為潛在應用場景。

(1)多視角生成:從單一圖像中提取特征,并生成該對象在不同參考視角下的多種視圖,進而創造出一個全方位的三維視覺效果。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

(2)ID 插值:在兩個身份特征之間平滑過渡,黴黴和幂幂合體,50% 的楊幂+ 50% 的泰勒。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

(3)多 ID + 多風格的生成,多個個體特征和多種藝術風格,呈現在同一張圖像中,毫不違和。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

基于高性能的人像注入和編輯能力,InstantID 可以支援很多衍生應用玩法。比如,快速低門檻的真人寫真,時間快成本低。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

還有誇張五官人像定制,可玩性強。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

以及非人像混合定制,這類獨一無二的藝術形象,很适合養萌寵的人士。

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”

目前小紅書該開源項目已開放模型推理代碼,歡迎線上體驗或離線部署,直接感受 InstantID 的魅力。

代碼位址: https://github.com/InstantID/InstantID 項目位址: https://instantid.github.io

Illustration From IconScout By Delesign Graphics

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群(www.techbeat.net)。社群上線500+期talk視訊,3000+篇技術幹貨文章,方向覆寫CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章,并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向,對使用者啟發更大的文章,做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信(chemn493)投稿,溝通投稿詳情;還可以關注“将門創投”公衆号,背景回複“投稿”二字,獲得投稿說明。

>>> 添加小編微信!

關于我“門”▼

将門是一家以專注于數智核心科技領域的新型創投機構,也是北京市标杆型孵化器。公司緻力于通過連接配接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與産業更新。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

小紅書開源InstantID,秒級高保真人像風格化的新“魔法”