天天看点

Drag GAN公布开源代码:不完美,但大象它真的转身了!

作者:林叔的呓语

一个多月之前,拖拽式改图的AI工具Drag GAN火遍全网,在论文公布的第二天我曾经写过专题文章介绍。

参见:

由于改图的方式太过于颠覆原有认知,演示视频一时间在各种视频平台传播,相信你可能多少还有印象。

视频加载中...

作者当时在主页发布预告,源代码将在6月份开源。两天前,他兑现了承诺,代码在Github上开源了。

从代码层面来看,这个工具是将英伟达NVIDIA研究项目之一的StyleGAN2/3作为底层框架,在这之上搭建了一套机器学习代码,交互界面,以及预训练模型。

在运行时,机器学习框架通过不同类别的模型完成生成式图像工作,像极了Stable Diffusion的框架结构。

既然是开源的,当然可以在本地安装,前提需要这样几个条件:

  • 支持Windows,Linux,MacOS
  • 为了更好的效果,请准备英伟达GPU
  • 有人用8G左右的显存也能运行,但是为了节约你的时间,我推荐显存不低于16G
  • 实测24G显存可以非常流畅跑图
  • 安装环境需要MS Visual Studio C++
Drag GAN公布开源代码:不完美,但大象它真的转身了!

既然代码已经开源了,教你如何安装当然不是本文的重点,因为你会发现即便装好了也不一定能跑得动程序。毕竟对大多数人而言,配置16G显存的显卡属实有点奢侈了。

幸运的是,我们在网页上就能够直接运行代码。

Drag GAN公布开源代码:不完美,但大象它真的转身了!

从Git库进入Huggingface,已经有一个Web实例部署在线上。

先别着急着运行,这是一个公用的Demo,速度奇慢且极容易报错。

你要做的是点击Duplicate Space,复制这个Demo到你的私有空间。

Drag GAN公布开源代码:不完美,但大象它真的转身了!

这相当于镜像复制了其他人实例的同时,新建立你的私人实例容器,只要你不公开,就只有你能使用。如果你用过云服务,就不难理解这个概念。

当然代价也是有的,你租用了服务商提供的算力,当然要按时间付钱,价目表如下:

Drag GAN公布开源代码:不完美,但大象它真的转身了!

实测16G显存的T4就能跑,但是速度很慢很慢,耗时大约是高显存的3倍以上;24G显存的A10G流畅程度仿佛在看视频动画,推荐直接上A10。

国内支持Visa的信用卡就能付款,预付10美元,多退少补,一个小时体验也有直观印象了。毕竟,这比一次性花几万更新设备要划算多了。

稍等片刻,当你在网页上看到这只狮子时,就代表着部署已经完成,前后用时2分钟左右。

Drag GAN公布开源代码:不完美,但大象它真的转身了!

功能上并不复杂,就那么几个按钮,五分钟之内你就能学会用。

Drag GAN公布开源代码:不完美,但大象它真的转身了!

接下来就是改图时间。

比如说给车换个朝向:

Drag GAN公布开源代码:不完美,但大象它真的转身了!

给马换个姿势:

Drag GAN公布开源代码:不完美,但大象它真的转身了!

小猫从一开始爱搭不理,到逐渐被吸引,好奇心爆棚:

Drag GAN公布开源代码:不完美,但大象它真的转身了!

模特姿势换了,头发长了,裤子短了

Drag GAN公布开源代码:不完美,但大象它真的转身了!

这人脸变化,我只能说毫无PS痕迹:

Drag GAN公布开源代码:不完美,但大象它真的转身了!

地壳运动在短短几秒钟内发生如此大变化……

Drag GAN公布开源代码:不完美,但大象它真的转身了!

以及那头大象,它真的转身了!

Drag GAN公布开源代码:不完美,但大象它真的转身了!
Drag GAN公布开源代码:不完美,但大象它真的转身了!

完整视频在这里,实际操作全过程大约50多秒(A10显卡),视频加速了1.5倍。

视频加载中...

总结一下使用体验:

优点在于:

  • 上手简单,几分钟就能学会使用方式;
  • 创意十足,脑洞大开的时间到了;
  • 一些预训练的图效果不错,能够看到这个工具商业应用的可能。

缺点在于:

  • 目前只能用模型图库,不支持直接上传图片,从图片转化到模型流程很长;
  • 基点和目标点间距不能太远,否则画面会出现难以预料的崩坏;
  • 改图之后肉眼可见的缺陷依然很多,还不能即刻投入生产环境。

虽然还有这样那样的问题,但这毕竟是最早的1.0版本。从代码库来看,作者很勤奋,更新的频率很高。

如同早年的GPT-2一样,好好说话都做不到,连比尔盖茨最开始都不相信OpenAI能成功。我们现在大可不必对刚上线的Drag GAN要求太高。何况它采用的对抗式生成网络GAN技术路线,本身就是个费时费力的苦活。

项目团队从上线第一天就开源,这既值得尊重,又非常明智。开源项目才会有更多感兴趣的开发者愿意投入时间研究,为开源社区添砖加瓦。今天Stable Diffusion极其活跃的模型社区就是最好的例子。

就在我码字的这会功夫,已经有开发者将代码和安装环境打包,无需繁琐安装过程,解压即可在自己电脑上使用。

关注我,在消息中输入“drag”(不分大小写),即可获得Drag GAN离线安装包网盘链接。

这恐怕就是连谷歌也畏惧的开源社区创造力。

该知道的信息都在这里了,你还不来试一试?

Github代码库:https://github.com/XingangPan/DragGAN

继续阅读