天天看點

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

作者:機器之心Pro

機器之心報道

編輯:蛋醬、陳萍

拍張照片,輸入文字指令,手機就開始自動修圖?

這一神奇功能,來自蘋果剛剛開源的圖檔編輯神器「MGIE」。

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

把背景中的人移除

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

在桌子上添加披薩

視訊加載中...

最近一段時間,AI 在圖檔編輯這一應用上取得了不小的進展。一方面,在 LLM 的基礎上,多模态大模型(MLLM)可以自然地将圖像視為輸入,并提供視覺感覺響應。另一方面,基于指令的編輯技術可以不依賴于較長的描述或區域掩碼,而是允許人類下達指令,直接表達如何編輯以及編輯圖像的哪個方面。這種方法極具實用性,因為這種引導更符合人類的直覺。

基于上述技術的啟發,蘋果提出了 MGIE(MLLM-Guided Image Editing),将 MLLM 用于解決指令引導不足的問題。

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?
  • 論文标題:Guiding Instruction-based Image Editing via Multimodal Large Language Models
  • 論文連結:https://openreview.net/pdf?id=S1RKWSyZ2Y
  • 項目首頁:https://mllm-ie.github.io/

如圖 2 所示,MGIE 由 MLLM 和擴散模型組成。MLLM 通過學習獲得簡明的表達指令,并提供明确的視覺相關引導。通過端到端訓練,擴散模型會同步更新,并利用預期目标的潛在想象力執行圖像編輯。這樣,MGIE 就能從固有的視覺推導中獲益,并解決模糊的人類指令,進而實作合理的編輯。

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

在人類指令的引導下,MGIE 可進行 Photoshop 風格的修改、全局照片優化和局部對象修改。以下圖為例,在沒有額外語境的情況下,很難捕捉到「健康」的含義,但 MGIE 可以将「蔬菜配料」與披薩精确地聯系起來,并按照人類的期望進行相關編輯。

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

這讓我們想起,庫克前不久在财報電話會議上表達的「雄心壯志」:「我認為蘋果在生成式 AI 方面存在着巨大的機會,但我不想談更多細節。」他透露的資訊包括,蘋果正在積極開發生成式 AI 軟體功能,且這些功能在 2024 年晚些時候就能向客戶提供。

結合蘋果在近段時間釋出的一系列生成式 AI 理論研究成果,看來我們期待一下蘋果接下來要釋出的新 AI 功能了。

論文細節

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

簡潔的表達指令

通過特征對齊和指令調整,MLLM 能夠跨模态感覺提供與視覺相關的響應。對于圖像編輯,該研究使用提示「what will this image be like if [instruction]」作為圖像的語言輸入,并導出編輯指令的詳細解釋。然而,這些解釋往往過于冗長、甚至誤導了使用者意圖。為了獲得更簡潔的描述,該研究應用預訓練摘要器讓 MLLM 學習生成摘要輸出。這一過程可以總結為如下方式:

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

通過潛在想象進行圖檔編輯

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?
罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

實驗評估

對于輸入圖檔,在相同的指令下,不同方法之間的比較,如第一行的指令是「把白天變成黑夜」:

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

表 1 顯示了模型僅在資料集 IPr2Pr 上訓練的零樣本編輯結果。對于涉及 Photoshop 風格修改的 EVR 和 GIER,編輯結果更接近引導意圖(例如,LGIE 在 EVR 上獲得了更高的 82.0 CVS)。對于 MA5k 上的全局圖檔優化,由于相關訓練三元組的稀缺,InsPix2Pix 很難處理。LGIE 和 MGIE 可以通過 LLM 的學習提供詳細的解釋,但 LGIE 仍然局限于其單一的模态。通過通路圖像,MGIE 可以得出明确的指令,例如哪些區域應該變亮或哪些對象更加清晰,進而帶來顯著的性能提升(例如,更高的 66.3 SSIM 和更低的 0.3 拍照距離),在 MagicBrush 上也發現了類似的結果。MGIE 還從精确的視覺想象中獲得最佳性能,并修改指定目标作為目标(例如,更高的 82.2 DINO 視覺相似度和更高的 30.4 CTS 全局字幕對齊)。

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

為了研究針對特定目的的基于指令的圖像編輯,表 2 對每個資料集上的模型進行了微調。對于 EVR 和 GIER,所有模型在适應 Photoshop 風格的編輯任務後都獲得了改進。MGIE 在編輯的各個方面始終優于 LGIE。這也說明了使用表達指令進行學習可以有效地增強圖像編輯,而視覺感覺在獲得最大增強的明确引導方面起着至關重要的作用。

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

α_X 和 α_V 之間的權衡。圖像編輯有兩個目标:操作作為指令的目标和保留作為輸入圖像的剩餘部分。圖 3 顯示了指令 (α_X) 和輸入一緻性 (α_V) 之間的權衡曲線。該研究将 α_X 固定為 7.5,α_V 在 [1.0, 2.2] 範圍内變化。α_V 越大,編輯結果與輸入越相似,但與指令的一緻性越差。X 軸計算的是 CLIP 方向相似度,即編輯結果與指令的一緻程度;Y 軸是 CLIP 視覺編碼器與輸入圖像的特征相似度。通過具體的表達指令,實驗在所有設定中都超越了 InsPix2Pix。此外, MGIE 還能通過明确的視覺相關引導進行學習,進而實作全面提升。無論是要求更高的輸入相關性還是編輯相關性,這都支援穩健的改進。

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

消融研究

除此以外,研究者還進行了消融實驗,考慮了不同的架構 FZ、FT 以及 E2E 在表達指令上的性能 。結果表明,在 FZ、FT、E2E 中,MGIE 持續超過 LGIE。這表明具有關鍵視覺感覺的表達指令在所有消融設定中始終具有優勢。

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

為什麼 MLLM 引導有用?圖 5 顯示了輸入或 ground-truth 目标圖像與表達式指令之間的 CLIP-Score 值。輸入圖像的 CLIP-S 分數越高,說明指令與編輯源相關,而更好地與目标圖像保持一緻可提供明确、相關的編輯引導。如圖所示,MGIE 與輸入 / 目标更加一緻,這就解釋了為什麼其表達性指令很有幫助。有了對預期結果的清晰叙述,MGIE 可以在圖像編輯方面取得最大的改進。

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

人工評估。除了自動名額外,研究者還進行了人工評估。圖 6 顯示了生成的表達指令的品質,圖 7 對比了 InsPix2Pix、LGIE 和 MGIE 在指令遵循、ground-truth 相關性和整體品質方面的圖像編輯結果。

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

推理效率。盡管 MGIE 依靠 MLLM 來推動圖像編輯,但它隻推出了簡明的表達式指令(少于 32 個 token),是以效率與 InsPix2Pix 不相上下。表 4 列出了在英偉達 A100 GPU 上的推理時間成本。對于單個輸入,MGIE 可以在 10 秒内完成編輯任務。在資料并行化程度更高的情況下,所需的時間也差不多(當批大小為 8 時,需要 37 秒)。整個過程隻需一個 GPU(40GB)即可完成。

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

定性比較。圖 8 展示了所有使用資料集的可視化對比,圖 9 進一步對比了 LGIE 或 MGIE 的表達指令。

罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?
罕見!蘋果開源圖檔編輯神器MGIE,要上iPhone?

在項目首頁中,研究者還提供了更多 demo(https://mllm-ie.github.io/)。更多研究細節,可參考原論文。

繼續閱讀