天天看點

圖像生成算法的奧秘:從L-System到Midjourney,AIGC 進化史

作者:聞訊百通

當代人工智能技術的飛速發展,不僅在推動社會進步和科技創新方面發揮着重要作用,而且在圖像生成和處理方面也得到了長足的進展。随着深度學習算法、GAN技術等的廣泛應用,目前最新的AI圖像生成産品已經能夠實作從文字到圖像(如OpenAI DALL-E)、從草圖到細緻圖像(如NVIDIA GauGAN)、從場景學習到推斷(如DeepMind GQN)、根據使用者提示來生成圖像(如Midjourney),并擅長适應實際的藝術風格,創造出使用者想要的任何效果組合的圖像,等多種複雜任務,具有巨大的潛力和廣泛的應用前景,這些技術的不斷發展不僅會帶來諸多變革和影響,而且在各個領域都可能産生深遠的影響和改變。

圖像生成算法的奧秘:從L-System到Midjourney,AIGC 進化史

人工智能與圖像生成技術的結合,可以讓計算機系統自動地生成逼真的圖像,使得圖像處理、計算機視覺等領域得到了極大的發展。本文将介紹AIGC(Artificial Intelligence + Graphics + Creativity)之圖像生成進化史,包括傳統圖像生成技術、規則自動生成算法、統計模組化、深度學習技術以及遷移學習等方面的内容。

1. 傳統圖像生成技術

早期的圖像生成技術主要依賴于手動設計和編寫程式,可以生成一些簡單的幾何圖形、文本字元和線條等。這種方法需要程式員手動設計每一個圖像元素,并控制其位置、顔色、大小等屬性。在20世紀60年代,由Ivan Sutherland開發的Sketchpad系統是第一款計算機輔助繪圖工具,它可以使用複雜的操作來建立圖形,如繪制直線、圓形、橢圓和多邊形等。

圖像生成算法的奧秘:從L-System到Midjourney,AIGC 進化史

Sketchpad系統

在1974年,Martin Newell參考了Utah州造山帶(Bryce Canyon)的自然景觀,建立了著名的“波浪球”(Teapot)模型,成為現代計算機圖形學的标志。這種系統是由三維曲面形狀構成的,遠超過了簡單的幾何圖形和線條。

圖像生成算法的奧秘:從L-System到Midjourney,AIGC 進化史

波浪球(Teapot)模型 執行個體

雖然傳統圖像生成技術有其局限性,但在某些領域仍然有着廣泛的應用,Sketchpad被認為是現代計算機輔助設計(CAD)程式的祖先,也是計算機圖形學發展的重大突破。

2. 基于規則的自動生成算法

基于規則的自動生成算法主要運用在模拟自然現象、城市規劃和建築設計等方面。這種方法基于一些規則和參數,例如樹幹的高度、分叉角度和葉子的顔色等。通過調整這些參數,可以生成不同風格和形态的圖像。其中最著名的案例是L-System(Lindenmayer System)。

L-System是一個最初由生态數學家Aristid Lindenmayer提出的植物形态模組化系統,後來被應用到多個領域中。L-System采用字元串代表植物,利用一組規則和起始狀态進行生長。舉一個簡單的例子,如果規則是“将字母F替換成F+F-F”,則生成的字元串為“F+F-F+F+F-F-F+F”。

圖像生成算法的奧秘:從L-System到Midjourney,AIGC 進化史

L-System 舉例

基于規則的自動生成算法的缺點在于,需要手動設計規則和參數,如果要生成複雜的圖像,則需要大量的時間和人力成本。

3. 統計模組化

到了21世紀初,統計學習和機器學習技術開始應用于圖像生成領域,尤其是基于機率圖模型的方法:貝葉斯網絡、高斯混合模型和馬爾科夫鍊等。這些方法能夠通過分析大量的真實圖像資料集,學習到圖像的特征和結構,并生成類似的圖像。

其中,高斯混合模型是利用多個高斯分布來描述圖像的部分或整體色彩分布,再根據不同權重組合這些高斯分布來表示整個圖像色彩分布的方法。馬爾科夫鍊則是一種在上下文相關條件下,更好地生成自然圖像的模型。這些方法可以來自于藝術家的筆觸、風景的表達和色彩等等。

圖像生成算法的奧秘:從L-System到Midjourney,AIGC 進化史

馬爾科夫鍊

統計模組化雖然能夠自動地生成圖像,但它們的生成效果通常不太逼真,甚至有些抽象。

4. 深度學習技術

2010年左右,深度學習技術開始進入圖像生成領域。利用卷積神經網絡(CNN)和生成對抗網絡(GAN)等深度學習模型,能夠生成更加逼真的圖像。

卷積神經網絡(CNN)是深度學習領域中常用的一種神經網絡。在圖像生成領域,可以将CNN應用于像素級别的處理和分析,進而實作基于圖像、圖像語義和上下文等資訊的複雜圖像生成和轉換操作。

Generative Adversarial Networks(GANs)是2014年由Ian Goodfellow和其他研究人員提出的一種深度學習模型。它由兩個神經網絡組成:一個生成器網絡和一個判别器網絡。生成器網絡負責學習如何從随機噪聲生成逼真的圖像,而判别器網絡則用于區分生成的圖檔與真實的圖檔。通過回報機制使得生成器網絡不斷的優化,使其生成的圖檔逐漸達到真實圖檔的水準。

圖像生成算法的奧秘:從L-System到Midjourney,AIGC 進化史

GANs 原理

深度學習技術可以自動地學習到圖像的特征和結構,并生成逼真的圖像,是目前圖像生成領域的主要方法之一。

5. 遷移學習

現在大多數圖像生成算法都是基于深度學習技術的。遷移學習方法可以将已有的深度學習模型遷移到新的任務上,進而加速模型訓練和提高生成效果。同時,一些先進的 GPT (Generative Pre-trained Transformer)模型也被廣泛應用于圖像生成領域,使得生成的圖像更加真實、豐富。

圖像生成算法的奧秘:從L-System到Midjourney,AIGC 進化史

GPT-3 圖像生成模型

例如,2019年,OpenAI推出了一個基于語言模型的GPT-2模型,并且在2020年公開了其更大的版本 GPT-3。現如今,GPT-4釋出,其功能将更加強大,對語言文本的了解更加深入。這種模型與上下文無關,可以直接生成逼真的圖像,如下圖所示。

圖像生成算法的奧秘:從L-System到Midjourney,AIGC 進化史

GPT 根據語義生成

而Midjourney是基于圖像識别、生成對抗網絡和圖像風格遷移等技術的AI機器人,它可以将使用者輸入的圖像轉化為高品質的藝術作品。通過使用卷積神經網絡和GAN技術,Midjourney能夠了解使用者輸入的圖像内容,并生成與之相似的新圖像。此外,Midjourney還可以運用圖像風格遷移技術,快速生成具有指定藝術風格的作品。除了以上技術外,Midjourney還具有語音識别、自然語言處理等多種能力,可應用于智能客服、虛拟主播等領域。

圖像生成算法的奧秘:從L-System到Midjourney,AIGC 進化史

Midjourney 圖像生成

遷移學習使得深度學習模型的訓練變得更加快速高效,同時也提高了圖像生成的效果和多樣性。

結論

AIGC 之圖像生成進化史诠釋了智慧的極限和機器創造力的突破。傳統的手工設計已經無法滿足我們對于多樣性和真實感的需求。而随着人工智能的不斷發展,我們相信未來的圖像生成技術還會取得更大的突破和進步。

繼續閱讀