微軟AI單憑文字就可作畫，誰最先受到沖擊？

馬雲曾說：“三十年後，《時代》雜志封面年度最佳CEO說不定是個機器人。”

機器人CEO可能還需等待，但機器人繪畫師已經在路上。

當Google的AI正在塗鴉時，微軟的繪畫AI 已經學會如何畫鳥了。近日,微軟對外宣稱正計劃推出一項新的人工智能技術——繪圖機器人（drawing bot）。使用者僅需說出想要繪制物體的名稱，機器人便可以進行相關素材的比對，也就是說，未來可以通過口述的方式進行繪畫，說啥畫啥。

人工智能系統單純透過文字描述就能夠創作圖像，該技術在文字描述中尋找關鍵字詞，然後再用來創作高畫質的圖像，據悉這個關注重點的技巧讓圖像的畫質較之前提升3倍。

随着人工智能時代的到來，藝術與科技的碰撞，越來越頻繁地現身熱門話題榜。AI“看文作畫”的技術展現了具有藝術表現力的潛能，對藝術創作的影響已經可以預見。但微軟的繪畫AI，在撬動智能體想象力方面，意義絕對不隻是“藝術助手”所能概括的。

是以，AI口述繪畫這件事，不可小瞧！

什麼是AI口述繪畫

AI口述繪畫，看起來好像是機器接受人類指令給出圖畫，但遠遠不止這麼簡單。智能相對論（微信id：aixdlun）了解到，正如負責研發的Microsoft深度學習技術首席研究員何曉東說的，圖像是人工智能由零開始，逐像素逐像素創作。他以一幅人工智能創作的黃色雀鳥圖像做解說，表示人工智能分析文字後，再透過一項名為生成對抗性網絡（GAN，Generative Adversarial Network）的技術将文字轉化成圖像，人工智能創作的黃色雀鳥并不一定在現實世界存在，隻是電腦的一種想像。

GAN通過從高維的分布中采樣，生成模型輸出與訓練樣本類似的新樣本。這就意味着，若生成模型的訓練資料是鳥的圖像集，那麼訓練後得到的模型也能輸出類似于鳥的合成圖檔。

研究員稱人工智能系統能夠創作出任何類型的形象，例如飄浮的雙層巴士、放牧中的牲畜等，而且在文字中欠缺的一些細節，系統會在影像中自行補完。

GAN結構用到了兩個神經網絡：一個是生成器，它試圖基于輸入的資料生成更像真實資料的結果；另一個是判别器，它的目的在于正确分辨哪些是真實的資料。簡單地來了解就是，生成器總是在試圖“騙過”判别器。

生成器必須反複用随機輸入的噪音資料合成有意義的内容，直到判别器無法區分合成内容的真僞。這套架構正在被擴充應用到許多資料模式和任務中。如仿真時間序列的特征；超分辨率圖像；從二維圖像複原三維結構；小規模标注資料集的泛化;預測視訊的下一幀；生成自然語言的對話内容；藝術風格遷移；語音和音樂的合成。

值得一提的是，微軟研究人員在此基礎上建立了他們稱之為注意力生成式對抗網絡或AttnGAN的技術，這個AttnGAN生成的圖像的品質比之前最好的GAN生成的圖像品質提高了近三倍。而這種仿人類注意力的生成式對抗網絡對AI界的影響十分重大，這标志着在類人類智能的發展實作了質的突破。

AI據文繪畫，或許漫畫領域最受沖擊

“看文作畫”的AI在現實生活中又會發揮什麼樣的用處呢？

讓我們來想象一下，未來，可能會發生這樣的對話——

“Drawing bot，請你為我畫一個花園。”

接着，一座美麗的花園躍然于紙上，花園中有各色的花朵，飛舞的蝴蝶，甚至有兩個小孩在其中嬉戲。

從文本到圖像的生成技術可以找到很多實際應用，它既可以作為漫畫家和室内設計師的素描助理，或者作為語音美化照片的工具。如果有更多的計算能力，這項技術能夠根據電影劇本生成動畫電影，進行一些重複且繁瑣的手工繪畫，比如動畫背景中的一棵樹、一顆草，進而改善動畫電影制片人的工作。

人工智能可以模仿披頭士寫歌，當然也可以模仿各種名家作畫。試想一下，一個沒有任何繪畫基礎的編劇，卻能在網上釋出自己漫畫劇作，其作品還頗有當代某著名漫畫家的畫風。在動漫方面，如果微軟的這款繪圖智能大力發展，完全可以大大降低創作門檻。當然，這種另類的“漫畫創作”也可能面臨素材版權的問題。

目前來說，微軟這個繪圖AI還是有比較大的提升空間，而在不斷改進後，在将來，它可能會對漫畫領域産生極大的沖擊，甚至于對室内空間設計行業也會産生影響。當然，其主要作用還是節省畫家和設計家的人力和時間，而令人期待的是，未來的電視上極有可能會出現由AI自導自演的卡通片。

想象力——讓AI差別于死物

除了知道繪畫AI可以充當更好的人類幫手之外，我們為什麼要關注AI繪畫這件事？智能相對論（微信id：aixdlun）認為，其中關鍵，或許是我們應該知道“想象力”在AI世界中的重要程度和期待指數。

想象力是人在已有形象的基礎上，在頭腦中創造出新形象的能力。比如當我說起牛奶，你想到的圖景可能是杯子中盛着白色的牛奶，這個想象是基于你生活中的經驗所得到的，也就是說，想象一般是在掌握一定的知識面的基礎上完成的。

繪畫機器人能夠想象出标題中沒有包含的細節，這是因為，它有一點自己的常識和想象力，當然，這要依賴于它大量的訓練資料。

在鳥的例子中，機器人畫的鳥通常是站在枝頭上的，然而文本内容中其實并沒有提到這一細節。這是因為資料庫中提供給它的圖像經常出現類似的内容。這意味着，AI在掌握了一定的知識面後也能将其利用起來形成自己的想象。

目前，AI隻是在小的細節中進行補充，而下一步，應該是試圖在更自主地描繪圖像上完成突破。如果這個突破到來，意味着AI模型在“想象力”這一特質上得到了進一步更新。這個能讓AI差別于死物的能力，終于拉開了表演的大幕。

AI先天具備的是運算能力，進而進行仿人類智慧的智能模拟，第二步就是模仿人類的感覺，比如機器識别、語音識别、語義分析等等，都是在做這件事。而第三步，就是讓AI 有自己的“想象”和“思考”。

假如單純的感覺卻無法自主輸出，那麼AI無非是更靈活的傳感器而已。

從這個邏輯上來看，微軟AI“看文作畫”絕不僅僅是一個商業應用的技術加持，也不僅僅是藝術與科技的碰撞，更重要的應該是開啟了AI世界裡使AI具有想象力的新紀元。

微軟的這隻鳥，更深遠的意義在于，我們或許距離擺脫機器人純粹的“運算”更近了一步。

微軟AI單憑文字就可作畫，誰最先受到沖擊？

繼續閱讀

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

無人機--飛控科普

neo4j之cypher使用文檔

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述