天天看點

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

作者:替代視訊共享細菌
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

作者 | 卷毛

編輯 | 松露

*頭圖來源于DALL·E 3,描述:一個由拟人化的秋天樹葉組成的民謠樂隊的2D動畫,每一片樹葉都演奏着傳統的藍草樂器,在鄉村森林的背景中,點綴着豐收之月的柔光。

全自動畫圖神器來了!ChatGPT現在能直接出圖了。

隻需要告訴ChatGPT你想要一張什麼圖,ChatGPT就能直接幫你寫好完整的描述詞,給到DALL·E 3生成圖檔。像這張混合星雲爆炸的扣籃創意圖,換成以往的AI繪圖産品,一般都需要費力編寫大段的“咒語”才能實作。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

“一幅表現籃球運動員扣籃的油畫,描繪的是星雲的爆炸”,圖源DALL·E 3

DALL·E 3是OpenAI最近推出的新版AI繪圖模型,原生建構在ChatGPT之上,進一步降低了AI繪畫門檻,使用者可以在對話中将自己的想法轉化成準确的圖像,甚至還能畫出正确的文字。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

使用者問ChatGPT“我5歲的孩子說的超級向日葵刺猬,它應該長什麼樣子”,ChatGPT立馬寫了四段不同風格的提示詞,并生成對應圖像

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

“這幅插畫描繪了一顆由半透明玻璃制成的人心,矗立在驚濤駭浪中的基座上。一縷陽光穿透雲層,照亮了心髒,揭示了其中的小宇宙。地平線上镌刻着一行醒目的大字 Find the universe within you”,圖源DALL·E 3

目前隻有一小部分ChatGPT Plus使用者獲得了内測資格。不過很快,與OpenAI深度合作的微軟便将DALL·E 3內建在浏覽器Bing中,可供所有Bing Chat和Bing Image Creator使用者免費使用。由于來嘗鮮的使用者太多,Bing最近流量激增,報道稱微軟又緊急增加了數千台伺服器上線。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

有了ChatGPT支援的DALL·E 3真的像介紹的這麼厲害嗎?和Midjourney等其他AI繪畫産品又有什麼差別呢?“頭号AI玩家”在Bing上對DALL·E 3進行了一番測評。

p.s. 想要體驗的玩家可以通路以下兩個入口,登入微軟賬戶即可使用,目前Bing Image Create每天有25次免費的快速生成額度,用完之後生成圖檔需要更長的時間。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

Bing Image Create網址:https://cn.bing.com/create

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

Bing Chat網址:https://www.microsoft.com/zh-cn/edge/launch/bing-chat-3p?form=MY02CJ&OCID=MY02CJ&q

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

文章插圖

内容創作者為了減少購買版權素材的成本,或者快速找到符合需求的圖檔,可能會試着用AI生成配圖。

我們先用簡短的提示詞試試,輸入“畫一個招聘市場”,DALL·E 3預設生成了四張1024*1024分辨率的圖檔,内容相似,都是拿着放大鏡觀察市場資料。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

我們可以給出更詳細的要求,比如“畫一個現實裡的招聘市場,人來人往,非常熱鬧”。不過DALL·E 3了解錯了現實裡的意思,變成了插畫風格,并寫上了文字“Real Job Market”,部分圖檔的文字還出現了錯誤。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

作為甲方,我們再次提出了修改意見——“人頭攢動的招聘市場,寫實攝影,不含文字,橫屏”。可惜的是,DALL·E 3給出的圖比較抽象,虛實結合,還是出現了文字。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

相比之下,同樣的提示詞,Midjourney的了解就比較準确了,滿屏都是求職者。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

Crowded recruitment market, realistic photography, no text --ar 16:9 --v 5.2

換一個簡單點的描述看看,“兩個中國人在面試中”,這下DALL·E 3的表現基本不錯,隻是交叉的手指都沒處理好。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

而Midjourney與DALL·E 3的了解不同,認為是兩個人在面對面對談,四張圖的人物、環境、風格差異都比較大,細節上比DALL·E 3更真實一些。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

Two Chinese people during the interview --ar 16:9 --v 5.2

DALL·E 3的特色在于能夠在對話中生成圖像,除了給出明确的提示詞,我們還可以試着直接輸入一段文字,要求生成符合文意的配圖。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

這段話讨論了非技術人員怎麼跟上AI浪潮,語義複雜,并沒有描述具體的人或事物,DALL·E 3的結果令人驚喜,有一座富有科技感的未來城市和工作在其中的人們,也有許多人圍繞着智慧大腦的脈絡進行工作,從不同角度切中了文意。

我們試着在其中一張原圖的基礎上繼續加入文字“AI”,但是DALL·E 3重新生成了四張跟原圖無關的圖檔,似乎不能直接修改已生成的圖檔,比如調整一些細節。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

LOGO設計

既然有了ChaGPT支援,我們不妨讓DALL·E 3幫我們完善想法,自動生成詳細提示,定制一張個性化的LOGO。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

一開始Bing認為“頭号AI玩家”與人工智能和遊戲有關,是以設計的LOGO主體是一個機器人拿着遊戲搖桿。在補充了賬号資訊和主色調後,Bing以人工智能頭像和數字1為主要元素重新設計了四張圖。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

第三張感覺更簡潔一些,我們繼續溝通修改。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

可以看到,Bing能比較好地了解需求,但生成的文字有時不太準确,需要再後期修改。對比Midjourney,我們無法實作這樣來回的溝通,隻能自己琢磨提示詞,并且很難生成AIGC這麼多文字,Midjourney的優勢在于生成的圖檔品質比較高,設計感更強。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

The logo named after AIGC PLAYER, Purple, simple, technological sense, no complicated lines --v 5.2

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

産品圖/營銷圖

在廣告營銷、電商領域,AI商品圖的應用越來越多,那麼DALL·E 3能生成可用的素材圖嗎?

我們先讓Bing生成一隻中式風格的、适合秋冬使用的手提包,看來它了解的中式是喜慶、刺繡、流蘇。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

換成傳統與現代結合的新中式風格呢?果然變成了黑色、金色為主的皮質包包,不過還是保留了複雜的刺繡圖案。即使要求裝飾簡約一點,Bing了解的中式風格依舊離不開刺繡。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

而Midjourney生成的顯然更素雅一些,背景也更簡潔。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

A new Chinese-style handbag that combines tradition and modernity for autumn and winter, with light and neutral colors and patterns --v 5.2

如果想換個背景和場景,比如秀場上,一個優雅的女模特拿着這隻包,那Bing暫時還做不到,會像前文一樣重新根據描述生圖。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

最近推特上還流行一種DALL·E 3的玩法,用來生成一些排列整體的Knolling攝影照片,如下圖所示,一個主體周圍有許多相關物品環繞,放置在幹淨的背景上。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

X@chaseleantj

想生成類似的圖檔卻不知道怎麼寫提示詞, 沒關系,直接問Bing就行了。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

創意梗圖

AI降低了創作的門檻,可以幫助我們把腦中的奇思妙想畫出來,其随機性也擴寬了想象力的邊界。因而,創意梗圖一直是AI繪圖領域的熱門類型。

我們來開開腦洞,讓Bing畫一隻巨大的貓咪爬在東方明珠電視塔上。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

隻有左下的一張比較符合要求,其他東方明珠塔的數量和造型都有些錯誤,而且貓咪看起來像是動畫模組化,不太真實。

Midjourney雖然畫出了真實的貓,但地點不在東方明珠塔,大小比例也不對。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

A giant cat climbing on the Oriental Pearl TV Tower --v 5.2

下面我們再畫一張最近的熱門IP表情包,“Loopy正在上班”。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

起初Bing不認識Loopy,了解成了古怪的、瘋狂的意思。我們告訴Bing它來自南韓卡通片《小企鵝Pororo》之後,Bing表示明白了,卻把正在工作的主角換成了企鵝。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

看來DALL·E 3還缺乏對于最新流行的素材訓練。如果換成更經典的IP,那麼DALL·E 3和Midjourney都能準确表現,并且DALL·E 3還配上了文字“假裝上班,正在摸魚”。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

A meme of Pikachu working at a computer --v 5.2

最近AI繪畫還流行一種模仿iPhone拍攝的恐怖照片風格,非常貼合萬聖節的氛圍,我們試試直接輸入這一大段的描述。

提示詞:“a picture being taken of a cryptid sighting of [your character] as he runs into the bushes. [your character] has gone completely insane. He turns his head and creepily looks into the camera as he makes his getaway. There's a thick fog, and the scene is dimly lit."
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

四張圖檔基本都滿足要求,左上的皮卡丘有點怪可愛的。但是同樣的提示詞,Midjourney就不能完全了解,還是需要轉換成“咒語”。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

故事書/漫畫

在OpenAI官方示範中,ChatGPT可以通過自然的對話生成一隻想象中的刺猬,并逐漸生成完整的故事情節、繪本和系列貼紙。是以畫故事書/漫畫的流程被大大縮短了,如果你有一個想法,可以讓AI先幫忙擴寫故事、描繪場景,然後根據自動生成的提示詞畫出完整作品。

以醜小鴨變天鵝的故事為例,我們要求Bing把這個過程以兒童繪本的形式畫出來。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

Bing雖然一口氣生成了三個畫面,的确有醜小鴨和白天鵝,是兒童繪本的形式,但是前後缺乏邏輯關系,情節呈現不完整,可能還是需要自己按照一個個情節依次引導生成。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

Bing還可以重新創作一個新的故事,比如它幫我設想了一個擁有超能力的超級英雄“洋蔥俠”,畫出了它和邪惡廚師的戰鬥畫面。真别說,故事梗概和畫面都挺符合我的想象的,你覺得怎麼樣呢?

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫
體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

小結

通過以上測評,可以看到DALL·E 3在搭載了ChatGPT後,可以完全用自然語言進行交流,在對話中繪圖創作,不用複雜的提示工程,簡短的提示詞就能生成不錯的圖檔,對抽象需求的了解能力也比較強,支援中文。不過文生圖仍然是越詳細的描述,輸出越準确,這一點沒有變。

DALLE·3和Midiourney等其他AI繪圖産品相比,各有其優劣勢:

在使用體驗和互動上,DALLE·3的互動式繪圖比較直覺友善,降低了使用門檻,還能直接讀懂大段文字自動作圖。Midjourney目前主要在Discord平台上運作,需要在特定的頻道裡輸入描述,不能文字互動。文心一言雖然也可以在網頁上通過對話繪圖,但缺少上下文了解,不能繼續調整,目前一次隻能生成一張圖。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

圖源文心一言

在生成圖檔方面,DALL·E 3的優勢是能生成較為準确的文本,可能有錯誤,但其他AI繪畫産品目前直接文生圖得到的文字都難以辨認,需要借助微調模型上傳參考文字再融合。DALL·E 3預設生成1024*1024的正方形圖檔,适用範圍較窄,而Midiourney可自定義多種尺寸,其他AI繪圖産品基本都支援不同比例。

對于寫實風格的圖檔,DALL·E 3生成的人臉和手看起來可能失真,而Midiourney目前V5.2版本已經非常逼真了,Stable Diffusion也有超寫實的人像模型。

另外,在Bing上要求修改圖檔的時候,Bing是根據對話修改提示語再輸入DALL·E 3進行生成,而不是直接修改已生成的圖檔,DALL·E 3暫時還不能像Midjourney一樣快速進行微調,包括擴圖、修改局部細節,更不用說Stable Diffusion複雜的參數調整了。是以作為專業創作者的生産力工具而言,DALL·E 3的實用性還不夠強。

在安全問題上,DALL·E 3的内容限制較為嚴格,拒絕生成涉及公衆人物、暴力、成人或仇恨内容的圖像,比如要求畫一張馬斯克在火星上的照片,Bing顯示無法建立。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

根據OpenAI釋出的DALL·E 3的22頁技術報告,ChatGPT會改寫提示,包括删除公衆人物的名字、将人物與特定屬性聯系起來,以及以通用方式書寫品牌。OpenAI還開發了圖像分類器來檢測圖像中的存疑内容并阻止模型繼續生成。

體驗當甲方的快樂!用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

報告位址:https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf

同時,微軟表示,為了保證使用者通過Bing Image Creator建立的内容的安全性,已經在生成的圖檔中内置了,符合C2PA規範的數字水印,包含圖檔創立日期、出處等資訊。人的肉眼無法看見這些水印,但AI能識别出來。

總之,OpenAI的DALL·E 3現在加上了了解文字和圖像的智慧大腦,我們可以把ChatGPT作為合作夥伴一起頭腦風暴進行創作,無論是出于娛樂愛好或者專業需求。AI繪畫模型正在不斷進化,根據不同的使用者需求和适用場景可以選擇不同的工具,DALL·E 3不會完全替代其他産品,但新的創作方式已經更進一步了。

繼續閱讀