AI是如何从文本生成图像的？

作者：七厝元辈 2023-09-25 07:50:00

生成式 AI 算法使用概率从噪声中创建视觉效果

去年，互联网首次尝试了图像生成人工智能。突然之间，曾经只提供给专家的技术对任何有网络连接的人都可以使用。这种热情没有减弱的迹象，人工智能生成的图像赢得了一场大型摄影比赛，创造了电视连续剧的片头字幕，并欺骗人们相信教皇穿着时髦的羽绒服走出来。然而，批评者指出，在现有作品上训练算法可能会侵犯版权，使用它们可能会危及艺术家的工作。生成人工智能也有可能增加假新闻：教皇外套很有趣，但一张据称显示五角大楼袭击的照片短暂激发了股市的下跌。

像DALL-E 2、Midjourney和Stable Diffusion这样的程序是如何一下子变得如此出色的？尽管人工智能已经发展了几十年，但当今最流行的图像生成器使用了一种称为扩散模型的技术，这在人工智能领域相对较新。以下是它的工作原理：

早在20世纪50年代，研究人员就一直在预测并致力于人工智能的发展，人工智能是一种可以复制甚至超越人类大脑的某些能力的机器。

从那时起，计算技术已经走过了很长的一段路，al生成的内容正在迅速改进，推动了注意力和资金的爆炸式增长。

在过去的十年里，研究人员发现，给一个程序提供大量带有描述性标签的图片，会导致Al将这些标签分配给以前未见过的图片。它可以让你的手机从文本搜索中找到一个人或一个宠物的照片。

狗，男人，海滩

*狗，男人，海滩

为了了解Al如何从文本中生成图像，让我们来看看一种流行的方法，称为扩散模型。假设这个盒子是我们的铝。为了训练铝，我们给它提供带有标签的图像。它可能会分析数亿张照片，通常是从互联网上大量来的。它正在学习将单词与图像联系起来。

即使是Al的开发人员也不确切知道它是如何学习的，但它可能正在创建一个内部地图，并为图像内的关系分配概率。例如，人的脸通常会有两只眼睛，而狗往往会有。

然后，科学家们在一组图像中添加视觉噪音，类似于旧电视上的静态视觉噪音，以挑战Al：它必须去除噪音，并返回一个干净的图像。

一旦训练，Al可以读取任何给定的文本提示，从纯噪声的图像开始，并减少噪声，直到它有一个与书面描述相匹配的新图像。

“海滩上的人和狗”

我的你们就会说："我就是这种玩

，"你是这种

这些模型虽然功能强大，但它们并不被认为是真正的智能模型。他们还不能创造出他们以前从未见过的东西。

开发者用来培训他们的图片包括受版权保护的材料，提出了关于剽窃和知识产权的问题。

复杂的或真正新颖的提示可能会给他们带来麻烦。

但这项技术还在不断改进。令人信服的铝生成的文本、视频和音频似乎不可避免的。在这个虚假信息的时代，al生成的内容将迫使我们质疑我们看到和听到了什么。

但最近，这一策略被颠覆了。Al现在可以从标签上创建新的图像，而不是将标签附加到图像上。具有这种能力的算法被称为“生成式”模型。

他们一遍又一次地重复这个过程，每次都用更多的噪音来掩盖图像。

而且，因为这些模型来自于从互联网上搜集到的人造作品，它们可以强化现有的基于阶级、种族、性别和年龄的偏见。

抛开炒作不谈，生成的Al能克服它的技术、法律和伦理障碍吗？还是说这些都只是噪音？

AI是如何从文本生成图像的？

继续阅读

给AI生成图像「加水印」，谷歌发布识别工具SynthID

黄仁勋在演讲中谈到了一个关键数据，对机器人的编程远远比机器人本身的价格要高得多，用omniverse构建应用，能简化机器

只需要输入描述，自动生成图像。AI绘画，你的智能辅助设计师！#ai绘画

AI绘画是指使用人工智能技术进行绘画创作的过程和结果。当人工智能技术应用于绘画领域时，计算机程序可以通过训练和学习，模仿

一拖一拽，玫瑰复活了！谷歌提出生成图像动力学，从此万物皆有灵

一次性搞懂AI绘画是如何生成图像的！

#aigc#chatgpt#AI绘画DALL•E3生成图像

四维AI生成图像，一起来围观，猜猜是小棉袄还是皮夹克呢？#接一切好孕@DOU+小助手

基于生成式AI的3D场景纹理化原理及实现作者正在尝试使用AI技术制作游戏场景，包括使用StableDiffusion和C

在PS里一秒生成图像素材！Adobe甩出三大AI模型，100多项AI能力炸场

ChatGPT公司旗下全部AI工具：Whisper:语音识别AI，识别翻译多种语言Clip:图像识别AI，理解图像信息D

1.网站名称:StyleDrop网站功能:AI绘图网站简介:是一个能够按照特定5风格生成图像的工具，由Muse驱动，Mu

大明星霉霉泰勒斯威夫特摊上大事儿了！她的AI生成图像在全球网络上泛滥式传播！各种大尺度！微软CEO对AI生成的这些虚假图