天天看点

AI是如何从文本生成图像的?

作者:七厝元辈

生成式 AI 算法使用概率从噪声中创建视觉效果

AI是如何从文本生成图像的?
AI是如何从文本生成图像的?

去年,互联网首次尝试了图像生成人工智能。突然之间,曾经只提供给专家的技术对任何有网络连接的人都可以使用。这种热情没有减弱的迹象,人工智能生成的图像赢得了一场大型摄影比赛,创造了电视连续剧的片头字幕,并欺骗人们相信教皇穿着时髦的羽绒服走出来。然而,批评者指出,在现有作品上训练算法可能会侵犯版权,使用它们可能会危及艺术家的工作。生成人工智能也有可能增加假新闻:教皇外套很有趣,但一张据称显示五角大楼袭击的照片短暂激发了股市的下跌。

像DALL-E 2、Midjourney和Stable Diffusion这样的程序是如何一下子变得如此出色的?尽管人工智能已经发展了几十年,但当今最流行的图像生成器使用了一种称为扩散模型的技术,这在人工智能领域相对较新。以下是它的工作原理:

早在20世纪50年代,研究人员就一直在预测并致力于人工智能的发展,人工智能是一种可以复制甚至超越人类大脑的某些能力的机器。

从那时起,计算技术已经走过了很长的一段路,al生成的内容正在迅速改进,推动了注意力和资金的爆炸式增长。

在过去的十年里,研究人员发现,给一个程序提供大量带有描述性标签的图片,会导致Al将这些标签分配给以前未见过的图片。它可以让你的手机从文本搜索中找到一个人或一个宠物的照片。

狗,男人,海滩

*狗,男人,海滩

为了了解Al如何从文本中生成图像,让我们来看看一种流行的方法,称为扩散模型。假设这个盒子是我们的铝。为了训练铝,我们给它提供带有标签的图像。它可能会分析数亿张照片,通常是从互联网上大量来的。它正在学习将单词与图像联系起来。

即使是Al的开发人员也不确切知道它是如何学习的,但它可能正在创建一个内部地图,并为图像内的关系分配概率。例如,人的脸通常会有两只眼睛,而狗往往会有。

然后,科学家们在一组图像中添加视觉噪音,类似于旧电视上的静态视觉噪音,以挑战Al:它必须去除噪音,并返回一个干净的图像。

一旦训练,Al可以读取任何给定的文本提示,从纯噪声的图像开始,并减少噪声,直到它有一个与书面描述相匹配的新图像。

“海滩上的人和狗”

我的你们就会说:"我就是这种玩

,"你是这种

这些模型虽然功能强大,但它们并不被认为是真正的智能模型。他们还不能创造出他们以前从未见过的东西。

开发者用来培训他们的图片包括受版权保护的材料,提出了关于剽窃和知识产权的问题。

复杂的或真正新颖的提示可能会给他们带来麻烦。

但这项技术还在不断改进。令人信服的铝生成的文本、视频和音频似乎不可避免的。在这个虚假信息的时代,al生成的内容将迫使我们质疑我们看到和听到了什么。

但最近,这一策略被颠覆了。Al现在可以从标签上创建新的图像,而不是将标签附加到图像上。具有这种能力的算法被称为“生成式”模型。

他们一遍又一次地重复这个过程,每次都用更多的噪音来掩盖图像。

而且,因为这些模型来自于从互联网上搜集到的人造作品,它们可以强化现有的基于阶级、种族、性别和年龄的偏见。

抛开炒作不谈,生成的Al能克服它的技术、法律和伦理障碍吗?还是说这些都只是噪音?

AI是如何从文本生成图像的?

继续阅读