天天看點

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

一個多月之前,拖拽式改圖的AI工具Drag GAN火遍全網,在論文公布的第二天我曾經寫過專題文章介紹。

參見:

由于改圖的方式太過于颠覆原有認知,示範視訊一時間在各種視訊平台傳播,相信你可能多少還有印象。

視訊加載中...

作者當時在首頁釋出預告,源代碼将在6月份開源。兩天前,他兌現了承諾,代碼在Github上開源了。

從代碼層面來看,這個工具是将英偉達NVIDIA研究項目之一的StyleGAN2/3作為底層架構,在這之上搭建了一套機器學習代碼,互動界面,以及預訓練模型。

在運作時,機器學習架構通過不同類别的模型完成生成式圖像工作,像極了Stable Diffusion的架構結構。

既然是開源的,當然可以在本地安裝,前提需要這樣幾個條件:

  • 支援Windows,Linux,MacOS
  • 為了更好的效果,請準備英偉達GPU
  • 有人用8G左右的顯存也能運作,但是為了節約你的時間,我推薦顯存不低于16G
  • 實測24G顯存可以非常流暢跑圖
  • 安裝環境需要MS Visual Studio C++
Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

既然代碼已經開源了,教你如何安裝當然不是本文的重點,因為你會發現即便裝好了也不一定能跑得動程式。畢竟對大多數人而言,配置16G顯存的顯示卡屬實有點奢侈了。

幸運的是,我們在網頁上就能夠直接運作代碼。

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

從Git庫進入Huggingface,已經有一個Web執行個體部署線上上。

先别着急着運作,這是一個公用的Demo,速度奇慢且極容易報錯。

你要做的是點選Duplicate Space,複制這個Demo到你的私有空間。

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

這相當于鏡像複制了其他人執行個體的同時,建立立你的私人執行個體容器,隻要你不公開,就隻有你能使用。如果你用過雲服務,就不難了解這個概念。

當然代價也是有的,你租用了服務商提供的算力,當然要按時間付錢,價目表如下:

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

實測16G顯存的T4就能跑,但是速度很慢很慢,耗時大約是高顯存的3倍以上;24G顯存的A10G流暢程度仿佛在看視訊動畫,推薦直接上A10。

國内支援Visa的信用卡就能付款,預付10美元,多退少補,一個小時體驗也有直覺印象了。畢竟,這比一次性花幾萬更新裝置要劃算多了。

稍等片刻,當你在網頁上看到這隻獅子時,就代表着部署已經完成,前後用時2分鐘左右。

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

功能上并不複雜,就那麼幾個按鈕,五分鐘之内你就能學會用。

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

接下來就是改圖時間。

比如說給車換個朝向:

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

給馬換個姿勢:

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

小貓從一開始愛搭不理,到逐漸被吸引,好奇心爆棚:

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

模特姿勢換了,頭發長了,褲子短了

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

這人臉變化,我隻能說毫無PS痕迹:

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

地殼運動在短短幾秒鐘内發生如此大變化……

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

以及那頭大象,它真的轉身了!

Drag GAN公布開源代碼:不完美,但大象它真的轉身了!
Drag GAN公布開源代碼:不完美,但大象它真的轉身了!

完整視訊在這裡,實際操作全過程大約50多秒(A10顯示卡),視訊加速了1.5倍。

視訊加載中...

總結一下使用體驗:

優點在于:

  • 上手簡單,幾分鐘就能學會使用方式;
  • 創意十足,腦洞大開的時間到了;
  • 一些預訓練的圖效果不錯,能夠看到這個工具商業應用的可能。

缺點在于:

  • 目前隻能用模型圖庫,不支援直接上傳圖檔,從圖檔轉化到模型流程很長;
  • 基點和目标點間距不能太遠,否則畫面會出現難以預料的崩壞;
  • 改圖之後肉眼可見的缺陷依然很多,還不能即刻投入生産環境。

雖然還有這樣那樣的問題,但這畢竟是最早的1.0版本。從代碼庫來看,作者很勤奮,更新的頻率很高。

如同早年的GPT-2一樣,好好說話都做不到,連比爾蓋茨最開始都不相信OpenAI能成功。我們現在大可不必對剛上線的Drag GAN要求太高。何況它采用的對抗式生成網絡GAN技術路線,本身就是個費時費力的苦活。

項目團隊從上線第一天就開源,這既值得尊重,又非常明智。開源項目才會有更多感興趣的開發者願意投入時間研究,為開源社群添磚加瓦。今天Stable Diffusion極其活躍的模型社群就是最好的例子。

就在我碼字的這會功夫,已經有開發者将代碼和安裝環境打包,無需繁瑣安裝過程,解壓即可在自己電腦上使用。

關注我,在消息中輸入“drag”(不分大小寫),即可獲得Drag GAN離線安裝包網盤連結。

這恐怕就是連谷歌也畏懼的開源社群創造力。

該知道的資訊都在這裡了,你還不來試一試?

Github代碼庫:https://github.com/XingangPan/DragGAN

繼續閱讀