一个多月之前,拖拽式改图的AI工具Drag GAN火遍全网,在论文公布的第二天我曾经写过专题文章介绍。
参见:
由于改图的方式太过于颠覆原有认知,演示视频一时间在各种视频平台传播,相信你可能多少还有印象。
视频加载中...
作者当时在主页发布预告,源代码将在6月份开源。两天前,他兑现了承诺,代码在Github上开源了。
从代码层面来看,这个工具是将英伟达NVIDIA研究项目之一的StyleGAN2/3作为底层框架,在这之上搭建了一套机器学习代码,交互界面,以及预训练模型。
在运行时,机器学习框架通过不同类别的模型完成生成式图像工作,像极了Stable Diffusion的框架结构。
既然是开源的,当然可以在本地安装,前提需要这样几个条件:
- 支持Windows,Linux,MacOS
- 为了更好的效果,请准备英伟达GPU
- 有人用8G左右的显存也能运行,但是为了节约你的时间,我推荐显存不低于16G
- 实测24G显存可以非常流畅跑图
- 安装环境需要MS Visual Studio C++
既然代码已经开源了,教你如何安装当然不是本文的重点,因为你会发现即便装好了也不一定能跑得动程序。毕竟对大多数人而言,配置16G显存的显卡属实有点奢侈了。
幸运的是,我们在网页上就能够直接运行代码。
从Git库进入Huggingface,已经有一个Web实例部署在线上。
先别着急着运行,这是一个公用的Demo,速度奇慢且极容易报错。
你要做的是点击Duplicate Space,复制这个Demo到你的私有空间。
这相当于镜像复制了其他人实例的同时,新建立你的私人实例容器,只要你不公开,就只有你能使用。如果你用过云服务,就不难理解这个概念。
当然代价也是有的,你租用了服务商提供的算力,当然要按时间付钱,价目表如下:
实测16G显存的T4就能跑,但是速度很慢很慢,耗时大约是高显存的3倍以上;24G显存的A10G流畅程度仿佛在看视频动画,推荐直接上A10。
国内支持Visa的信用卡就能付款,预付10美元,多退少补,一个小时体验也有直观印象了。毕竟,这比一次性花几万更新设备要划算多了。
稍等片刻,当你在网页上看到这只狮子时,就代表着部署已经完成,前后用时2分钟左右。
功能上并不复杂,就那么几个按钮,五分钟之内你就能学会用。
接下来就是改图时间。
比如说给车换个朝向:
给马换个姿势:
小猫从一开始爱搭不理,到逐渐被吸引,好奇心爆棚:
模特姿势换了,头发长了,裤子短了
这人脸变化,我只能说毫无PS痕迹:
地壳运动在短短几秒钟内发生如此大变化……
以及那头大象,它真的转身了!
完整视频在这里,实际操作全过程大约50多秒(A10显卡),视频加速了1.5倍。
视频加载中...
总结一下使用体验:
优点在于:
- 上手简单,几分钟就能学会使用方式;
- 创意十足,脑洞大开的时间到了;
- 一些预训练的图效果不错,能够看到这个工具商业应用的可能。
缺点在于:
- 目前只能用模型图库,不支持直接上传图片,从图片转化到模型流程很长;
- 基点和目标点间距不能太远,否则画面会出现难以预料的崩坏;
- 改图之后肉眼可见的缺陷依然很多,还不能即刻投入生产环境。
虽然还有这样那样的问题,但这毕竟是最早的1.0版本。从代码库来看,作者很勤奋,更新的频率很高。
如同早年的GPT-2一样,好好说话都做不到,连比尔盖茨最开始都不相信OpenAI能成功。我们现在大可不必对刚上线的Drag GAN要求太高。何况它采用的对抗式生成网络GAN技术路线,本身就是个费时费力的苦活。
项目团队从上线第一天就开源,这既值得尊重,又非常明智。开源项目才会有更多感兴趣的开发者愿意投入时间研究,为开源社区添砖加瓦。今天Stable Diffusion极其活跃的模型社区就是最好的例子。
就在我码字的这会功夫,已经有开发者将代码和安装环境打包,无需繁琐安装过程,解压即可在自己电脑上使用。
关注我,在消息中输入“drag”(不分大小写),即可获得Drag GAN离线安装包网盘链接。
这恐怕就是连谷歌也畏惧的开源社区创造力。
该知道的信息都在这里了,你还不来试一试?
Github代码库:https://github.com/XingangPan/DragGAN