天天看点

超好玩的一键PS!把任何物体P到图像上去!

作者:3D视觉工坊

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

这篇文章引入了SwapAnything,这是一个利用预训练扩散模型简化个性化任意对象交换的框架。 与以前的工作不同,SwapAnything旨在进行任意交换任务,实现完美的上下文像素保留和和谐的对象过渡。SwapAnything始于在扩散模型上探索源图像的信息性表示,发现扩散过程中的各种变量,特别是来自U-net的潜在特征与图像具有对应关系。因此,作者提出通过在交换过程中保留这些变量中的对应部分来保持源图像中的上下文像素。该过程旨在精确交换特定区域,确保其他对象和背景的完整性。源图像中的对象信息也被选择用于外观适应。更具体地说,位置适应控制新概念应该交换的位置。样式适应确保概念对象与原始图像之间的风格和谐,促进自然和连贯的视觉呈现。此外,引入了比例适应来调节目标对象的形状,确保其与源图像的空间和尺寸方面的一致性。最后,内容适应对于平滑生成新概念至关重要,实现了无缝融合,减轻了任何伪影或不自然的过渡。通过这些专门的适应措施,SwapAnything在以对象驱动的图像内容交换领域提供了更高水平的精度和精细度。

下面一起来阅读一下这项工作~

标题:SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing

作者:Jing Gu, Yilin Wang, Nanxuan Zhao, Wei Xiong, Qing Liu, Zhifei Zhang, He Zhang, Jianming Zhang, HyunJoon Jung, Xin Eric Wang

机构:加州大学、Adobe

原文链接:http://arxiv.org/abs/2404.05717

代码链接:https://github.com/eric-ai-lab/swap-anything

官方主页:https://swap-anything.github.io/

有效编辑个人内容在使个人能够表达他们的创造力、在视觉故事中编织引人入胜的叙述,并提升视觉内容的整体质量和影响方面起着关键作用。因此,在这项工作中,我们介绍了SwapAnything,这是一个新颖的框架,可以根据参考给出的个性化概念,将图像中的任何对象进行交换,同时保持上下文不变。与现有的个性化主题交换方法相比,SwapAnything具有三个独特的优点:(1)精确控制任意对象和部分,而不是主题,(2)更忠实地保留上下文像素,(3)更好地将个性化概念适应于图像。首先,我们提出了有针对性的可变交换,通过对潜在特征图进行区域控制,并交换掩码变量以保留忠实的上下文,并进行初始语义概念交换。然后,我们引入外观适应,以在图像生成过程中将语义概念无缝地适应到原始图像中,包括目标位置、形状、风格和内容。人类和自动评估的广泛结果表明,我们的方法在个性化交换方面显著优于基线方法。此外,SwapAnything在单个对象、多个对象、部分对象和跨领域交换任务中展示了其精确和忠实的交换能力。SwapAnything在基于文本的交换以及超出交换范围的任务(如对象插入)上也取得了很好的性能。

SwapAnything可以实现各种个性化图像交换任务。SwapAnything擅长在具有个性化参考的源图像中进行精确的、任意的对象替换,并在不影响任何上下文像素的情况下实现高保真的交换结果,展示了其在单对象、多对象、部分对象和跨域交换任务中的一般效果。

超好玩的一键PS!把任何物体P到图像上去!

(1)提出了SwapAnything,这是一个通用框架,旨在进行个性化交换和基于文本的交换,适用于单个对象、多个对象、部分对象和跨领域对象。

(2)确定了内容保留的关键变量,并提出了针对完美背景保留的有针对性的交换。

(3)设计了一个复杂的外观适应过程,将概念图像适应到源对象中。

(4)通过全面的定性评估和定量分析,在交换任务和超越交换的任务(如插入)中展现了卓越的性能。

SwapAnything概述将一个对象从源图像( Isrc )交换到一个个性化的概念以得到目标图像( Itarget )。个性化的概念首先被转换到文本空间,作为概念的外观。同时,首先将源图像反演为初始噪声,得到U - Net变量(包括潜在特征、注意力图和注意力输出)。有针对性的变量交换保留了源图像中的上下文像素。然后,外观适应过程利用这些信息变量将概念整合到目标图像中。

超好玩的一键PS!把任何物体P到图像上去!

SwapAnything中的交换过程。左半部分显示了潜在特征z和生成图像之间的对应关系。右半部分展示了U - Net扩散过程中目标变量的操作过程。

超好玩的一键PS!把任何物体P到图像上去!

单目标交换结果。

超好玩的一键PS!把任何物体P到图像上去!

多目标交换结果。

超好玩的一键PS!把任何物体P到图像上去!

部分对象交换结果。

超好玩的一键PS!把任何物体P到图像上去!

跨域交换结果。

超好玩的一键PS!把任何物体P到图像上去!

人类评估结果。

超好玩的一键PS!把任何物体P到图像上去!

总之,SwapAnything代表了对象交换领域的重大突破。在扩散模型中交换潜在特征和注意力变量,保证了生成图像中关键信息的保留。通过有针对性的操作,SwapAnything实现了完美的背景保存。此外,SwapAnything还引入了一个复杂的外观适应过程,旨在将概念无缝地集成到源图像的上下文中。因此,SwapAnything能够处理各种各样的对象交换挑战。在未来,作者计划将我们的框架扩展到3D /视频个性化对象交换任务中。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。