天天看點

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

作者:皮卡智能AI視覺平台

在大家沉迷于Midjourney、Stable Diffusion 技術中無法自拔時,一時被人遺忘的GAN又帶着新技術重出江湖了。現在P圖,你隻需要“輕輕點兩下”,AI就能迅速了解你的想法,秒速生成結果圖。

DragGAN是由Max Planck研究所開發的一種新的人工智能工具,它允許使用者通過幾個點選和拖動來真實地修改照片,目前還未對外開源。王道控股旗下的「李白實驗室」算法團隊搶先「複刻」出了DragGAN。

目前,可直接使用的模型能夠讓你輕松掌控圖檔中的人物和動物,通過拖拽控制點和目标點來調整他們的位置、形狀、姿勢等等。現在已經可以在 上直接使用了。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

一、效果展示

修改微笑弧度,讓一張嚴肅的照片變成露牙甜美笑。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

放大圖檔中小哥哥的眼睛。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

拍照臉型不好看,一鍵瘦臉,毫無PS痕迹。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

覺得貓咪太瘦不夠可愛,可以給它拉大臉龐,增加可愛度。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

發際線拯救神器,這簡直就是秃頭星人的救命工具。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

輕輕一拖,在不影響美觀的情況下,可以讓貓咪的耳朵縮小。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

讓獅子向右側方向移動,終于有一天,可以完成甲方提出「讓大象轉個身」的需求。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

可以随意改變模特的發型,短發變長發;本來雙腳分開站立的模特,可以瞬間把腿拉至并攏。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

二、關于DragGAN技術原理

雖然上述的效果展示很多,但是其實DragGAN也就兩個技術原理:

1、基于特征的運動監督,驅動搖桿點向目标位置移動;

2、一個新的點追蹤方法,利用鑒别性的發生器特征,不斷定位搖桿點的位置。

DragGAN是一種基于GAN的圖像編輯方法,可以實作運動監督和精确點跟蹤。任何人都可以通過DragGAN對像素進行精确的控制,進而編輯如動物、汽車、人類、風景等多種類别的姿态、形狀、表情和布局。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

DragGAN還允許使用者選擇感興趣的區域以執行特定于區域的編輯,而不需要依賴其他網絡。 李白實驗室複現的「DragGAN」隻需要幾秒就能完成效果,你可以選擇不同的疊代步數,步數越多效果越誇張,其生成時間就越慢。

此外,DragGAN的無損優化功能可以讓使用者輸入二進制掩碼,訓示圖像中的可移動區域,進而實作更細緻的控制,避免損壞圖檔的原屬性。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

與傳統PS的液化功能相比,DragGAN在編輯圖檔時可以更好地保持圖檔的原始屬性,并且具有更廣泛的應用範圍。例如,可以使用DragGAN來改變圖檔中車輛的位置、大小和輪胎的形狀等。這種方法可以在幾次滑鼠拖動的時間内完成,非常友善快捷。

三、團隊介紹

「李白實驗室」是一個年輕且有活力的人工智能技術團隊,其中主創始人唐勇博士,畢業于美國賓夕法尼亞州立大學,具備深厚的學術背景,在美國知名500強企業擔任技術學科專家,進階工程師等。其他成員均畢業于國内外知名高校,清華、北大、浙大、英國皇家理工和美國常青藤範圍等。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

在開啟創業征程之前,李白人工智能實驗室的創始人唐博士曾在美國的知名研究機構以及世界五百強企業中獻身于科研事業。他主導并參與了衆多關乎社會、環境和能源的重大項目,這些項目的合作夥伴包括美國環保署,美國國家海洋和大氣管理局以及全球頂尖能源公司。他專注于運用數學實體模型、高性能計算、多目标優化以及人工智能技術,解答現實世界中大尺度、多模态、多變量的複雜難題,這其中包括洪水預報、氣候變化、能源管道裝置優化設計以及系統安全等一系列棘手問題。

然而,唐博士深知現實世界的問題千絲萬縷,影響因子五花八門,充滿了無法預料的不确定性。完全了解其數學實體機理似乎是一項幾乎無法完成的挑戰。是以,在遇見志同道合的合夥人并得到杭州王道創投基金的堅定支援後,唐博士毅然決定成立李白人工智能實驗室,希望通過人工智能技術提升模型的泛化能力,進而更有效地解決現實世界的複雜問題。

除此之外,郭銘濤作為主創人員,為李白實驗室帶來無限的全新可能性,在團隊攻堅克難之下,終于複現了DragGAN。郭銘濤來自四川大學圖像所,目前在讀博士一年級,主要研究方向就是深度生成模型,此前他還獲得了CVPR 2023 工業圖像缺陷生成競賽冠軍。

李白實驗室自創立之初,便秉持“讓人人都能享有技術帶來便捷”的使命,投入大量精力研發計算機視覺、語音以及自然語言處理等前沿技術。在推動技術進步的同時,李白實驗室也已經在設計、營銷、生命科學等多個領域進行了商業落地,使得我們的科技成果得以在實際生活中發揮作用,惠及社會。

我們深信,李白實驗室的未來将會在科研進步的道路上繼續前行,将最先進的技術成果轉化為社會的生産力,推動人類社會的科技進步,為建構一個更美好的未來做出我們的貢獻。

四、團隊成果

「李白實驗室」在2019年創辦了“PicUP.Ai皮卡智能”項目,海外同步上線“cutout.pro”項目,海外月活超千萬使用者,海外站更是跻身圖像編輯工具分類排名前十。基于GAN技術實作圖像分割、圖像修複增強、視訊處理等實用性功能,其中圖像背景分割算法模型在全球圖像分割alphamatting.com的模型評比中斬獲全球第一,獲得國内外近30項學術和研究成果專利,80%為發明專利。皮卡智能計算機視覺模型目前已應用到各行業場景,例如網際網路醫療、網際網路金融、文旅智慧景區、電商圖像處理、APP/小程式素材設計開發等等。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

2023年在AIGC爆火期間,「李白實驗室」推出“神采PromeAI”的項目。該項目通過算法優化更新,可直接應用于建築、室内、産品、遊戲/動漫場景設計中,不需要複雜的關鍵詞及參數設定,就可一鍵生成效果圖、線稿、電商産品圖等,實作把AIGC從玩具到工具的實用性轉變。

GAN重出江湖!李白實驗室搶先開源「複刻」版DragGAN

從此次DragGAN的「複刻」表現程度來看,「李白實驗室」一直走在AI技術革新的前列,并不斷創新發展,緻力于讓每一個普通使用者都能簡單使用這些工具。若将DragGAN與圖像生成工具結合使用,使用者将能夠更接近他們心目中理想圖像的輸入。下一代内容革新技術産品或許即将誕生!