超好玩的一鍵PS！把任何物體P到圖像上去！

來源：3D視覺工坊

添加小助理：dddvision，備注：方向+學校/公司+昵稱，拉你入群。文末附行業細分群

這篇文章引入了SwapAnything，這是一個利用預訓練擴散模型簡化個性化任意對象交換的架構。與以前的工作不同，SwapAnything旨在進行任意交換任務，實作完美的上下文像素保留和和諧的對象過渡。SwapAnything始于在擴散模型上探索源圖像的資訊性表示，發現擴散過程中的各種變量，特别是來自U-net的潛在特征與圖像具有對應關系。是以，作者提出通過在交換過程中保留這些變量中的對應部分來保持源圖像中的上下文像素。該過程旨在精确交換特定區域，確定其他對象和背景的完整性。源圖像中的對象資訊也被選擇用于外觀适應。更具體地說，位置适應控制新概念應該交換的位置。樣式适應確定概念對象與原始圖像之間的風格和諧，促進自然和連貫的視覺呈現。此外，引入了比例适應來調節目标對象的形狀，確定其與源圖像的空間和尺寸方面的一緻性。最後，内容适應對于平滑生成新概念至關重要，實作了無縫融合，減輕了任何僞影或不自然的過渡。通過這些專門的适應措施，SwapAnything在以對象驅動的圖像内容交換領域提供了更高水準的精度和精細度。

下面一起來閱讀一下這項工作~

标題：SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing

作者：Jing Gu, Yilin Wang, Nanxuan Zhao, Wei Xiong, Qing Liu, Zhifei Zhang, He Zhang, Jianming Zhang, HyunJoon Jung, Xin Eric Wang

機構：加州大學、Adobe

原文連結：http://arxiv.org/abs/2404.05717

代碼連結：https://github.com/eric-ai-lab/swap-anything

官方首頁：https://swap-anything.github.io/

有效編輯個人内容在使個人能夠表達他們的創造力、在視覺故事中編織引人入勝的叙述，并提升視覺内容的整體品質和影響方面起着關鍵作用。是以，在這項工作中，我們介紹了SwapAnything，這是一個新穎的架構，可以根據參考給出的個性化概念，将圖像中的任何對象進行交換，同時保持上下文不變。與現有的個性化主題交換方法相比，SwapAnything具有三個獨特的優點：（1）精确控制任意對象和部分，而不是主題，（2）更忠實地保留上下文像素，（3）更好地将個性化概念适應于圖像。首先，我們提出了有針對性的可變交換，通過對潛在特征圖進行區域控制，并交換掩碼變量以保留忠實的上下文，并進行初始語義概念交換。然後，我們引入外觀适應，以在圖像生成過程中将語義概念無縫地适應到原始圖像中，包括目标位置、形狀、風格和内容。人類和自動評估的廣泛結果表明，我們的方法在個性化交換方面顯著優于基線方法。此外，SwapAnything在單個對象、多個對象、部分對象和跨領域交換任務中展示了其精确和忠實的交換能力。SwapAnything在基于文本的交換以及超出交換範圍的任務（如對象插入）上也取得了很好的性能。

SwapAnything可以實作各種個性化圖像交換任務。SwapAnything擅長在具有個性化參考的源圖像中進行精确的、任意的對象替換，并在不影響任何上下文像素的情況下實作高保真的交換結果，展示了其在單對象、多對象、部分對象和跨域交換任務中的一般效果。

（1）提出了SwapAnything，這是一個通用架構，旨在進行個性化交換和基于文本的交換，适用于單個對象、多個對象、部分對象和跨領域對象。

（2）确定了内容保留的關鍵變量，并提出了針對完美背景保留的有針對性的交換。

（3）設計了一個複雜的外觀适應過程，将概念圖像适應到源對象中。

（4）通過全面的定性評估和定量分析，在交換任務和超越交換的任務（如插入）中展現了卓越的性能。

SwapAnything概述将一個對象從源圖像( Isrc )交換到一個個性化的概念以得到目标圖像( Itarget )。個性化的概念首先被轉換到文本空間，作為概念的外觀。同時，首先将源圖像反演為初始噪聲，得到U - Net變量(包括潛在特征、注意力圖和注意力輸出)。有針對性的變量交換保留了源圖像中的上下文像素。然後，外觀适應過程利用這些資訊變量将概念整合到目标圖像中。

SwapAnything中的交換過程。左半部分顯示了潛在特征z和生成圖像之間的對應關系。右半部分展示了U - Net擴散過程中目标變量的操作過程。

單目标交換結果。

多目标交換結果。

部分對象交換結果。

跨域交換結果。

人類評估結果。

總之，SwapAnything代表了對象交換領域的重大突破。在擴散模型中交換潛在特征和注意力變量，保證了生成圖像中關鍵資訊的保留。通過有針對性的操作，SwapAnything實作了完美的背景儲存。此外，SwapAnything還引入了一個複雜的外觀适應過程，旨在将概念無縫地內建到源圖像的上下文中。是以，SwapAnything能夠處理各種各樣的對象交換挑戰。在未來，作者計劃将我們的架構擴充到3D /視訊個性化對象交換任務中。

對更多實驗結果和文章細節感興趣的讀者，可以閱讀一下論文原文~

本文僅做學術分享，如有侵權，請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群，包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向，細分群包括：

2D計算機視覺：圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型：NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺：相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM：視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛：深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建：3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機：四旋翼模組化、無人機飛控等

除了這些，還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision，備注：研究方向+學校/公司+昵稱（如3D點雲+清華+小草莓）, 拉你入群。3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器，無人機等。