解讀Facebook CAN：如何給人工智能賦予藝術創作的力量

gan既然已經有如此的圖像生成能力了，我們能不能用gan生成藝術作品呢，畢竟許多現代藝術作品看照片好像也并不怎麼複雜，比如下面這幅；超寫實主義的就更不用說了。

然而，要創造出一副人類覺得有藝術價值的作品并沒有那麼簡單。人類喜歡創新性的作品，人類不喜歡完全模仿的作品；《蒙娜麗莎》和《蘭亭集序》隻有原作者的原版才被認可是世界藝術瑰寶，後世的人就算基于它們創作，也要有自己的創新，才能帶來新的藝術價值，才能被觀賞者認可。

根據gan的基本結構，鑒别器d要判斷生成器g生成的圖像是否和其它已經提供給鑒别器d的圖像是同一個類别（特征相符），這就決定了最好的情況下輸出的圖像也隻能是對現有作品的模仿，如果有創新，就會被鑒别器d識别出來，就達不成目标了。上面幾個gan的例子就能展現出鑒别器d帶來的這個特點，用gan生成的藝術作品也就注定缺乏實質性的創新，藝術價值有限。

那麼，能不能讓gan具有一些創新的能力，讓這些創新有藝術價值、帶有這些創新的作品還能夠被人類認可呢？羅格斯大學藝術與人工智能實驗室、facebook人工智能研究院（fair）、查爾斯頓學院藝術史系三方合作的這篇論文就通過can（creative adversarial network，創造性對抗網絡）給出了一種答案。神經網絡庫keras的作者françois chollet也在twitter上推薦了這篇文章。

可以看到，生成的藝術作品風格非常多樣，從簡單的抽象畫到複雜的線條組合都有，内容層次也有區分。論文中也有對比測試結果，can生成的作品不僅比gan生成的更讨人喜歡，甚至來自巴塞爾藝術展的人類藝術作品都比不上can。（具體資料看後文）

剛才說到，藝術作品需要有創新性，can中的c就是creative，創新性的意思。那麼創新性要如何衡量呢、如何達到呢？

以往基于gan的圖像生成方法研究中，人類可以把訓練好的網絡生成的圖像和客觀事實相對比（超分辨率、圖像補全問題中）或者根據經驗判斷（風格轉換問題中），用來衡量網絡的效果；也有過一些更早期的算法，讓人類作為訓練回報的一環，引導網絡的訓練過程。但是對于這次的課題需要設計一個能自動訓練和生成、還要衡量作品的創新性的系統而言，以往的方法就起不到什麼幫助。

同時，在作者們看來，為了能模仿人類藝術創作的過程，算法中很重要的一部分就是要把算法的創意過程和人類藝術家以往的藝術作品聯系起來，像人類一樣把對以往藝術的了解和創造新藝術形态的能力整合在一起。

為了能夠想辦法找到一個能夠衡量創新性、參與疊代訓練的創新性名額，作者們找來了一組藝術理論。

d.e.berlyne認為，從生理心理學的角度講，人類的狀态中有一種叫做“喚醒水準”的名額，它可以衡量一個人有多警醒、多興奮；喚醒水準可以從最低的睡覺、休息，一直到暴怒、激動。而一副作品具有“喚醒潛力”的總體特質，它可以提升或者降低觀者的喚醒水準；它是作品新穎性、意外性、複雜性、多義性和疑惑性高低的綜合展現，這幾個屬性越高，作品的喚醒潛力就越高。 colin martindale（1943-2008）提出過一個假說，他認為在任一時刻，創意藝術家們都會嘗試增加他們作品的“喚醒潛力”，這就是一種拓寬創作習慣邊界的方法。但是，這種增加動作必須使得觀察者的負面反應盡可能小（盡量使觀察者不付出額外的努力），否則過于激進的産品就會受到負面的評價。 colin martindale還提出過一個假說，他認為當藝術家探索藝術風格的更多作用的時候，轉換藝術風格就會有提高“喚醒潛力”的作用。

這組理論隻是解釋藝術創新的理論中的寥寥幾個，但是它們綜合起來給出了兩個具有計算性的、可以用于疊代訓練的名額：

創新作品的創新程度不能過高，觀者不認為作品是藝術作品的可能性應當盡可能小；

新的藝術風格就是創新的展現。

根據提煉出的這兩個名額，論文中基于gan的原型建構了這樣一種新型的對抗性網絡can。

首先，對于“名額1：創新作品的創新程度不能過高，觀者不認為作品是藝術作品的可能性應當盡可能小”，就可以轉換為經典的對抗性網絡，g生成圖像，經過藝術作品訓練過的d判斷g生成圖像的是不是藝術作品。這樣的對抗性網絡生成的圖像就已經可以被人類看作是藝術作品。

然後，論文中的模型還根據“名額2：新的藝術風格就是創新的展現”增加了一部分新結構用來處理藝術風格。

論文中使用了25類不同的帶标簽藝術作品用于d的訓練，包含了抽象印象派、立體派、現代派、巴洛克、文藝複興早期等等風格的共7萬5千多幅。然後經過訓練的d除了要回報一幅圖像“是否是藝術作品”外，還要回報“能否分辨圖像是哪種藝術風格”。g然後就會利用d的回報生成盡量難以分辨藝術風格的圖像——難以歸類到現有分類中的，就是創新了。

“是否是藝術作品”、“是否難以分辨藝術風格”是兩種對立的信号，前一種信号會迫使生成器g生成能夠被看作的藝術的圖像，但是假如它在現有的藝術風格範疇中就達到了這個目标，鑒别器d就能夠分辨出圖像的藝術風格了，然後生成器就會受到懲罰。這樣後一種信号就會讓生成器生成難以分辨風格的作品。是以兩種信号就可以共同作用，讓生成器能夠盡可能探索整個創意空間中藝術作品的範圍邊界，同時最大化生成的作品盡可能遊離于現有的标準藝術風格之外。

這也就是論文标題「can: creative adversarial networks

generating “art” by learning about styles and

deviating from style norms」的含義，創造性對抗網絡可以學習藝術風格，然後背離這些現有的風格進行藝術創作。

相比gan，can增加的回報是“是否難以分辨藝術風格”，追求的是生成的圖像藝術風格難以分辨。雖然根據藝術理論的推導，新的藝術風格是一種創新，但既然是多加了一個回報，追求“生成的圖像藝術風格容易分辨”可以嗎？會不會也能生成不錯的作品呢？

從另一個角度看，假如追求“難以分辨”的can确實比追求“容易分辨”的can生成的圖像更好，那這就是模型選取了合理的回報的最佳展現。

說做就做。除了can之外，論文中還建立了三種模型用來對比。

dcgan 64x64：經過藝術作品訓練的dcgan（深度卷積生成式對抗網絡），輸出分辨率為64x64

dcgan 256x256：相比dcgan 64x64，生成器多加了兩層網絡，輸出分辨率為256x256

sccan：style-classification-can，追求“生成的圖像藝術風格容易分辨”的can

這三種模型生成的畫面像下面這樣

sccan生成的畫面中确實有了可辨認的風格，比如人物特寫、風景或者群像。但是直覺看上去并不怎麼讨人喜歡。

讓我們再來看一組can生成的圖像，上方是人類評價最高的、下方是人類評價最低的。應該說都比sccan生成的圖像精彩得多。

根據剛才的圖像可以看到，can的效果當然不錯，dcgan 256x256的圖像其實也挺好。那麼can的圖像對觀畫的人來說是不是真的已經難以分辨創作者了呢？跟真的藝術家創作的作品相比高下又如何呢？

為了具體比較，論文中做了幾個實驗，讓人類給不同組的作品打分。

實驗1、2：來自抽象印象派藝術家的作品、選自巴塞爾藝術展的作品、can生成的圖像、dcgan生成的圖像，一共4組作品，由普通人判斷這些作品來自人還是電腦，并給作品打分。

結果：實驗1裡有53%的人認為can的圖像是來自人類的，認為dcgan

64x64的圖像來自人的有35%；實驗2裡認為can的圖像來自人類的比例是75%，dcgan

256x256則是65%。來自抽象印象派藝術家的作品無疑是比例最高的，但有意思的是，兩個實驗裡認為巴塞爾藝術展的作品來自人的比例都還不如can高（實驗1中41%，實驗2中48%）。

實驗3：讓人類評價者從用心程度、視覺結構、互動性、啟發性幾個角度給作品評分，結果can全部得分最高。這個結果可謂出人意料。

實驗4：為了确認can和sccan之間新穎性和美學表現的高低，請了一群藝術史學生對随機選出的can和sccan圖像進行評價。認為can的圖像更新穎的比例為59.47%，認為can的圖像更加有美學吸引力的比例為60%，确實有顯著差別。

論文中表示，雖然這樣的模型還是不能對藝術風格概念有任何語義方面的了解，不過它确實展現出了從以往的藝術作品中學習的能力。至于為什麼人類會在多個方面給can打出高分，作者們也希望和大家進行開放性的探讨。

本文作者：楊曉凡

解讀Facebook CAN：如何給人工智能賦予藝術創作的力量

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希