AI繪圖還在卷，阿裡新繪圖模型上線，圖檔創作更精準可控

在這兩天舉行的 2023 世界人工智能大會上，阿裡雲旗下的通義系列大模型上新了一位新成員，通義萬相，并開啟了定向邀測。

通義萬相是一款 AI 繪圖應用，對于 AI 繪圖大家應該都不陌生，畢竟在此之前就有大名鼎鼎的 Midjourney 和 Stable Diffusion 了。

但這次重點在于，通義萬相還使用了新的繪圖模型 Composer。

可能有些讀者對繪圖模型的重要性不太了解，其實 AI 繪圖的發展，離不開 AI 繪圖模型的進步。

從早期的生成對抗網絡模型 Gan，到現在很多知名 AI 繪圖軟體都在用的擴散模型 Diffussion。

随着訓練模型的疊代，AI 繪圖的能力也是越來越強。

而這次的繪圖模型 Composer，也不例外。

早在幾個月前，阿裡就發表了 Composer 相關的論文，而且外網上對于 Composer 的讨論度還不低。

比如，有部落客就發推文曬出了一些通過 Composer 模型生成的不同風格的圖檔。

在這些例子中，有把棕毛馬變成斑馬的，把名畫變成真人的，把狐狸變成老虎的，這些生成圖不僅保留了原圖像的動作外形等細節，在風格轉換的融合上也是幾乎看不出什麼違和感。

這個 Composer 之是以能有這麼好的風格置換效果，和它這個模型架構的核心思想分不開關系。

因為 Composer 主打的就是一個組合性，它是在文生圖 Diffusion 擴散的基礎上，更進一步，稱之為可控擴散模型。

大家應該都知道，現在的主流 AI 繪圖模型基本上用的都是 Diffusion 擴散模型，Diffusion 擴散模型的訓練基本原理要說起來也非常簡單，就是給圖檔加噪聲，然後通過神經網絡學習圖檔加了噪聲和去了噪聲後是什麼樣子，在生成圖檔時，進行反向推理就行了。

不過 Composer 既然加上了 “ 可控 ” 二字，必然有其獨到之處，為了讓圖像的生成更有可控性，Composer 在進行加噪訓練前，還多了一個對圖檔的重新拆解群組合的過程。

拆解的，就是圖檔的一系列基本元素，比如線框，圖檔中分割的物體蒙版，深度資訊圖，顔色資訊等等。

随後，再把這些分割的元素圖，拿去做擴散模型的訓練，訓練出模型後，在推理階段重新組合。這樣，由于訓練時的資料量更多，而且對元素也有過分類訓練，在生成圖檔時，就能對圖檔中的各種細節元素，進行單一屬性的微調，大大增加了圖像生成的可控性群組合創造性。

以上說了這麼多，都不如自己親自試用了解的快，而且碰巧，本次知危編輯部也獲得了定向邀測的資格，接下來咱們就測測這個通義萬相真實實力到底如何。

本次測試，通義萬相一共開放了三項功能，分别是基礎的文生圖功能，相似圖檔生成，以及圖像風格遷移功能。

首先是文生圖功能，這個功能重點在于它對咱們輸入的中文語義了解如何，以及生成的圖檔美感如何。

第一個挑戰的是虛拟動漫風格，知危編輯部讓通義萬相生成一張：

“ 一隻帶着黑色鴨舌帽的貓頭鷹，站在一塊滑闆上，迪士尼畫風，月光灑在大地上。”

在通義萬相給出的幾張圖中，文字描述所提到的内容基本全部了解，貓頭鷹和背景畫的也不賴，算是完成的比較好。

随後知危編輯部又讓通義萬相嘗試了一波寫實風格：

“ 末日廢墟，長滿雜草和植物，生鏽的人形機器人半埋在土裡，寫實風格。”

這一次稍微有點不太對，雖然通義萬相對前面場景描述的細節基本都還原了，但是整個畫面還是有濃烈的繪畫風格，對寫實這個關鍵詞并沒有把握住。

一開始，知危編輯部懷疑通義萬相是不是沒有太了解寫實這個詞，随後又嘗試換了幾種說法和測試，比如換成攝影風格，或者說是拍攝照片，結果都不是特别好，當然橫向對比了幾波，通義萬相的表現已經是國産 AI 繪畫大模型裡表現最好的大模型之一了。

知危編輯部還發現，除了預設生成風格外，通義萬相還提供了幾種設定好的風格，不過也是全部偏繪畫風格，比如水彩，油畫，中國畫之類的，感覺有點特意避開寫實圖檔的意思。

是以知危編輯部對于文生圖這個功能的評價是，中文的語義了解能力挺棒，整體不同風格生成的品質也較好，但是在寫實風格上略顯不足，畫面表現力和美感尚可。

接下來就是通義萬相的二号功能了，相似圖像生成。

這個功能需要提供一張素材圖檔，交給通義萬相分析後，會根據圖像的各種特征，生成類似風格的圖檔。

知危編輯部嘗試的第一張照片，是一隻羊駝。

這是一張寫實的圖檔，如果按照之前的文生圖的評測來看，它應該沒辦法生成非常寫實的類型。

不過讓知危編輯部意外的是，這次的相似圖檔生成，結果居然依舊很寫實。

可以看到通義萬相很好的提取出了畫面中的重點，一隻羊駝和綠色草地，而且對草地和羊駝的形狀進行了重繪。

除了羊駝外，後續知危編輯部又使用了一些其它圖檔來做相似圖檔生成，比如這個透明泡泡的圖檔，生成的相似圖檔中，不僅保留了泡泡的外形和整體構圖，泡泡中的植物還進行了很多細節上調整。

之後，知危編輯部還和設計部門的設計師們從實際應用方向讨論了一下這個功能，他們都覺得這個相似圖檔生成最厲害的地方在于，它能厘清畫面中的主體到底是什麼，比如這個泡泡明顯是一個主要的元素，而泡泡裡面的植物是可以進行多樣性的變化的。

這個看上去很小的點，實際上是顯示了通義萬相在對畫面結構分析上的厲害之處，在實際設計平面圖的過程中，如果 AI 能直接幫助分析主體，并且按照主要資訊給你返多張相似圖檔，那麼對于提供設計素材的多樣性幫助還是非常大的。

接下來測試的最後一項功能就是圖像風格遷移了，這項功能會要求你提供兩張照片，一張是原圖，另一張則是需要遷移的風格，比如這裡知危編輯部就選擇了一張鄉村風景圖，讓通義萬相遷移成名畫《星空》的風格。

不過從最後的結果來看，首先，顔色風格肯定是變得更像《星空》了，但是整個畫畫的筆觸，知危編輯部感覺還沒有模仿到精髓。

随後，知危編輯部又測試了幾個案例，發現這個風格遷移在元素相對簡單的畫像上，效果還是挺不錯的，比如把一隻河馬的素描遷移成類似紙版畫風格。

整個過程也就短短幾秒，最後出來的河馬也确實像那麼一回事。

知危編輯部同樣問了問設計部門對這個功能的看法，據設計師們的說法，這個功能更像一個萬能的濾鏡，它友善之處在于，可以通過尋找自己想要的風格圖檔，快速給素材套上這種風格的濾鏡，而平常如果要手工處理這種活，複雜的幹上一天都是有可能的。

但問題也是有的，現在對于一些特定的素材模仿其實并沒有那麼到位，比如之前《星空》的那幅畫，在筆觸部分就沒有很好的呈現出來。

這次的測試下來，知危編輯部認為通義萬相體驗還是非常不錯的，而且它在中文語義的了解上表現，也是讓整個測試過程無比輕松愉快。

現在的 AI 繪圖雖然已經是一個老話題了，但是目前把 AI 繪圖真正的往産品化發展，去針對設計師們的痛點提供工具的還是非常少的，而據阿裡方面人士回答，通義萬相目前的這三項功能未來還會改進，并且還會針對不同行業的不同需求，上線更多的繪畫功能。

其實 AI 的概念開始火起來之後，AI 繪圖算是率先滲透進各個行業的 AI 應用先驅，畢竟繪畫作為一項非常古老的人類技藝，在如今的各行各業，多多少少都會有所涉及。

市場對繪畫和設計的需求，催生了 AI 繪圖巨大的市場，根據國泰君安的研報預計，到 2025 年，AI 繪畫在圖像内容生成領域滲透率将達到 30%，市場規模更是超 2000 億元。

包括遊戲，電影，廣告廠商等等産業都在被 AI 繪圖帶來的效率提升所變革，未來的産業發展中，想要和 AI 脫離關系，基本不可能。

這促進了 AI 繪圖應用的爆發式産出，基本上國内有訓練語言大模型的公司，都會在後續推出自己的 AI 繪圖産品。但産品的推出，隻是第一步，AI 繪圖想要産品化，需要解決的問題還有很多，比如生成圖像的版權問題，生成内容的合法性問題，生成内容的多樣性和可控性問題等等。

這些，都需要大模型廠商們在未來好好研究和打磨。

畢竟能搶下這塊肥肉的，隻會是那些真正在 AI 繪圖技術上創新和滿足使用者需求的少部分模型。

AI繪圖還在卷，阿裡新繪圖模型上線，圖檔創作更精準可控

繼續閱讀

阿裡向社會輸送了5.44萬名人才

做多京東阿裡，次貸“大空頭”終究“愛上”中國公司

靠着模仿拼多多京東，阿裡成功讓老外直呼“你好香”

阿裡·比拉爾：連奪兩場職業賽健體冠軍，今年奧賽的大黑馬？

全球震驚：軟銀抛售阿裡巴巴全部股份！這是背水一戰還是高明脫手

重磅！阿裡絕望了，拼多多強勢崛起，财報炸裂，新的電商巨頭誕生

重磅！阿裡巴巴集團1.4萬人被裁員，馬雲王國走向終結？

美國傳來消息，阿裡終究沒扛住壓力，一個時代結束了！

阿裡巨變，向大公司病開刀

阿裡，不再“大馬拉小車”

拼多多追上阿裡？最焦慮的是京東

劉強東說不拼搏不是兄弟：阿裡、京東為何向“大公司病”開刀？

阿裡前參謀長，做VC了

老将退休，阿裡越活越年輕了

投資回報率超3300%，阿裡CEO吳泳銘加持的佑駕創新欲沖刺港交所

蔡崇信最新發聲！稱訓練AI像教育孩子，學習三四年就能趕超博士，還談到了阿裡未來10年的目标