天天看点

图像生成算法的奥秘:从L-System到Midjourney,AIGC 进化史

作者:闻讯百通

当代人工智能技术的飞速发展,不仅在推动社会进步和科技创新方面发挥着重要作用,而且在图像生成和处理方面也得到了长足的进展。随着深度学习算法、GAN技术等的广泛应用,目前最新的AI图像生成产品已经能够实现从文字到图像(如OpenAI DALL-E)、从草图到细致图像(如NVIDIA GauGAN)、从场景学习到推断(如DeepMind GQN)、根据用户提示来生成图像(如Midjourney),并擅长适应实际的艺术风格,创造出用户想要的任何效果组合的图像,等多种复杂任务,具有巨大的潜力和广泛的应用前景,这些技术的不断发展不仅会带来诸多变革和影响,而且在各个领域都可能产生深远的影响和改变。

图像生成算法的奥秘:从L-System到Midjourney,AIGC 进化史

人工智能与图像生成技术的结合,可以让计算机系统自动地生成逼真的图像,使得图像处理、计算机视觉等领域得到了极大的发展。本文将介绍AIGC(Artificial Intelligence + Graphics + Creativity)之图像生成进化史,包括传统图像生成技术、规则自动生成算法、统计建模、深度学习技术以及迁移学习等方面的内容。

1. 传统图像生成技术

早期的图像生成技术主要依赖于手动设计和编写程序,可以生成一些简单的几何图形、文本字符和线条等。这种方法需要程序员手动设计每一个图像元素,并控制其位置、颜色、大小等属性。在20世纪60年代,由Ivan Sutherland开发的Sketchpad系统是第一款计算机辅助绘图工具,它可以使用复杂的操作来创建图形,如绘制直线、圆形、椭圆和多边形等。

图像生成算法的奥秘:从L-System到Midjourney,AIGC 进化史

Sketchpad系统

在1974年,Martin Newell参考了Utah州造山带(Bryce Canyon)的自然景观,创建了著名的“波浪球”(Teapot)模型,成为现代计算机图形学的标志。这种系统是由三维曲面形状构成的,远超过了简单的几何图形和线条。

图像生成算法的奥秘:从L-System到Midjourney,AIGC 进化史

波浪球(Teapot)模型 实例

虽然传统图像生成技术有其局限性,但在某些领域仍然有着广泛的应用,Sketchpad被认为是现代计算机辅助设计(CAD)程序的祖先,也是计算机图形学发展的重大突破。

2. 基于规则的自动生成算法

基于规则的自动生成算法主要运用在模拟自然现象、城市规划和建筑设计等方面。这种方法基于一些规则和参数,例如树干的高度、分叉角度和叶子的颜色等。通过调整这些参数,可以生成不同风格和形态的图像。其中最著名的案例是L-System(Lindenmayer System)。

L-System是一个最初由生态数学家Aristid Lindenmayer提出的植物形态建模系统,后来被应用到多个领域中。L-System采用字符串代表植物,利用一组规则和起始状态进行生长。举一个简单的例子,如果规则是“将字母F替换成F+F-F”,则生成的字符串为“F+F-F+F+F-F-F+F”。

图像生成算法的奥秘:从L-System到Midjourney,AIGC 进化史

L-System 举例

基于规则的自动生成算法的缺点在于,需要手动设计规则和参数,如果要生成复杂的图像,则需要大量的时间和人力成本。

3. 统计建模

到了21世纪初,统计学习和机器学习技术开始应用于图像生成领域,尤其是基于概率图模型的方法:贝叶斯网络、高斯混合模型和马尔科夫链等。这些方法能够通过分析大量的真实图像数据集,学习到图像的特征和结构,并生成类似的图像。

其中,高斯混合模型是利用多个高斯分布来描述图像的部分或整体色彩分布,再根据不同权重组合这些高斯分布来表示整个图像色彩分布的方法。马尔科夫链则是一种在上下文相关条件下,更好地生成自然图像的模型。这些方法可以来自于艺术家的笔触、风景的表达和色彩等等。

图像生成算法的奥秘:从L-System到Midjourney,AIGC 进化史

马尔科夫链

统计建模虽然能够自动地生成图像,但它们的生成效果通常不太逼真,甚至有些抽象。

4. 深度学习技术

2010年左右,深度学习技术开始进入图像生成领域。利用卷积神经网络(CNN)和生成对抗网络(GAN)等深度学习模型,能够生成更加逼真的图像。

卷积神经网络(CNN)是深度学习领域中常用的一种神经网络。在图像生成领域,可以将CNN应用于像素级别的处理和分析,从而实现基于图像、图像语义和上下文等信息的复杂图像生成和转换操作。

Generative Adversarial Networks(GANs)是2014年由Ian Goodfellow和其他研究人员提出的一种深度学习模型。它由两个神经网络组成:一个生成器网络和一个判别器网络。生成器网络负责学习如何从随机噪声生成逼真的图像,而判别器网络则用于区分生成的图片与真实的图片。通过反馈机制使得生成器网络不断的优化,使其生成的图片逐渐达到真实图片的水平。

图像生成算法的奥秘:从L-System到Midjourney,AIGC 进化史

GANs 原理

深度学习技术可以自动地学习到图像的特征和结构,并生成逼真的图像,是目前图像生成领域的主要方法之一。

5. 迁移学习

现在大多数图像生成算法都是基于深度学习技术的。迁移学习方法可以将已有的深度学习模型迁移到新的任务上,从而加速模型训练和提高生成效果。同时,一些先进的 GPT (Generative Pre-trained Transformer)模型也被广泛应用于图像生成领域,使得生成的图像更加真实、丰富。

图像生成算法的奥秘:从L-System到Midjourney,AIGC 进化史

GPT-3 图像生成模型

例如,2019年,OpenAI推出了一个基于语言模型的GPT-2模型,并且在2020年公开了其更大的版本 GPT-3。现如今,GPT-4发布,其功能将更加强大,对语言文本的理解更加深入。这种模型与上下文无关,可以直接生成逼真的图像,如下图所示。

图像生成算法的奥秘:从L-System到Midjourney,AIGC 进化史

GPT 根据语义生成

而Midjourney是基于图像识别、生成对抗网络和图像风格迁移等技术的AI机器人,它可以将用户输入的图像转化为高质量的艺术作品。通过使用卷积神经网络和GAN技术,Midjourney能够理解用户输入的图像内容,并生成与之相似的新图像。此外,Midjourney还可以运用图像风格迁移技术,快速生成具有指定艺术风格的作品。除了以上技术外,Midjourney还具有语音识别、自然语言处理等多种能力,可应用于智能客服、虚拟主播等领域。

图像生成算法的奥秘:从L-System到Midjourney,AIGC 进化史

Midjourney 图像生成

迁移学习使得深度学习模型的训练变得更加快速高效,同时也提高了图像生成的效果和多样性。

结论

AIGC 之图像生成进化史诠释了智慧的极限和机器创造力的突破。传统的手工设计已经无法满足我们对于多样性和真实感的需求。而随着人工智能的不断发展,我们相信未来的图像生成技术还会取得更大的突破和进步。

继续阅读