除了使用工具之外,我们的许多同学可能想了解这些图形工具的原则、历史的演变等等,而本篇文章则侧重于人工智能传记的历史和一些现有主流网络模式的运作机制。
随着Midjourney、稳定传播、DALL-E等图形模型的出现,越来越多的学生开始使用AI传记工具,如文章绘画,在这种工具中,像文章封面这样的创意场景可以直接与AI制作的图片一起使用,这可以说既节省费用,同时又非常方便。
一. 20世纪70年代 亚伦·艾画诞生
最早的人工智能绘画可追溯到1970年代,当时艺术家Harold Cohen发明了AARONA,AARONA,AARON, 其最大的特征是它是由机械武器制造的,当然,机器也受通过计算机程序制定的规则和算法的驱动,一些AARON绘画如下:
图片风格比学校教科书中的插图要抽象一些,1990年代的 " AARON " 能够以多种颜色绘画,在三维空间创造,而AARON几十年来一直在改进,今天仍在工作。
2006年,伦敦大学史密斯国王学院计算机创造学教授科尔顿制作了类似ARRON的计算机绘画产品,该产品可以观察照片,从照片中提取彩色信息,并使用油漆、油漆或铅笔等实际油漆材料,具体如下:
这些都是 " 古典 " 人工智能绘图模型,我们的现代人工智能绘画以深层神经网络为基础,最早可追溯到2012年U-N-Da培训制作 " 猫脸 " 模型时。
二、2012年模糊猫脸
2012年,Google的U-N-Da和Jeff Dean培训了一个模型,该模型以大量猫脸图像为基础,能够制造模糊的猫脸图像,为AI绘画打上重要起点,利用其160万个CPU核心和1 000万张来自YouTube的猫脸图像进行为期三天的培训,并成功培训了能够制造模糊猫脸的深层神经网络模型,利用模型生成的猫脸图像交叉参照下图示:
虽然所生成图像的质量不高,但实验标志着为深入学习而生成图像领域的一大进步,表明深入学习模式可以了解图像的复杂特征,并可用于生成新的图像内容。实验使用量神经网络,这是一个特别适合图像识别和处理的深入学习结构。GPT在先前的神经网络演变史中描述了这一模式,而这一文章没有详细描述。
三. 2014年发电反补贴网络(GAN)
2014年,由Ian Goodfelllow和加拿大蒙特利尔大学其他人提议的反网络算法在2014年在加拿大蒙特利尔大学创建了反网络算法,引进了人工智能绘画的新发展,这些绘画基本上是通过发电机和识别资料的反反对过程产生的图像,其原则详述如下:
上述图表包含两种模型:生成者和接近者,每个生成者有一个目标,对于生成者来说,目标是使自己制作的图像能够欺骗分隔器,从而使其相信它是原始数据库的真实图象,而不是模型的真实图象,在这种情况下,产出结果接近1(1个实际值),从而产生模型的效果;对于仲裁者来说,产出结果接近0(0个假值),从而产生不同模型的效果;如果产出结果优于0(0个假值),则产生不同模型的效果;如果形成所谓的对峙(GAN),则在原始数据库中产生所谓的结果的可能性大于0,结果值在两个模型和培训目标(一个目标为0,一个目标为1)的情况下,产生的结果值可能大于0,而制作图像的工作是完整的。
我们现在知道的米德乔尼的底部是以GAN模型为基础的。
2015年谷歌深梦2015
2015年, Google推出《深梦影像生成工具》, 虽然更像是先进的过滤器,
最上列是原始训练数据集,最下行是深海梦幻所创造的梦幻般摇头丸。
深梦的理由:
假设输入图像为 X, 输入图像可以是随机的噪音或图像。 将此图像输入音量神经网络, 其结果是每个类别的输出概率, 治愈神经网络是排序机器, 如何获取深梦图像? 需要指定标签。 例如, 如果您想要生成类似恒星的图像, 目标标签需要指定为恒星, 然后它会向后传输到输入图像, 以优化输入 X, 如果优化的 X 从音量神经网络获得恒星标记的高度概率, 您就会获得类似恒星的图像 。
注意: 这是对输入图像的像素值的调整, 而不是对卷心神经网络的调整。 在深梦项目中, 用于 curry神经网络的参数是固定的, 只有输入的图像是调整的 。
14岁的GAN和15岁的DeepDream在2021年之前都没有取得文本 > 图片,直到2021年开放AI公司推出出生地图模型DALL-E。
五. 2021年开放AI发射DALL-E
DALL-E模型的革命意义是,实现了文本>图象生成模式,相当于DAL-E,DAL-E,DALL-E的用户输入,迄今为止,DAL-E的用户输入已经更新到第三版,使用的模型可被描述为完全不同。
DALL-E 1
时间:2021年1月
模型基数:GPT-3(转换)+VAE(自对称编码器)
DALL-E 2
时间: 2022年4月
示范基础:CLIP(视觉语言预培训模式)+传播(传播模式)
DALL-E 3
时间:2023年10月
示范基金会:CLIP+VAE+扩散
下面是网上DALL-E2和DALL-E3的比较:
涉及许多模型,但我们可以将其分为以下几类:图像描述模型(将用户的提示转换成活的地图模型的说明),例如,GPT-3(转换)、CLIP(视觉语言培训前模型);图像生成模型,VAE(自我对称编码器)、传播(传播模型)。
CLIP(视觉语言预培训模式)
中心理念:在4亿张图像(文本到文本数据集)的基础上,以自我监督的学习方式,最大限度地实现文本和图像之间的相互关系。
(1) 具体步骤是:编制数据集:收集大量图像和文本对,这些图像和文本是配对或分开的,理想的情况是,数据应涵盖广泛的类别和情景。
2) 地物提取:预先训练的卷毛神经网络(CNN)用作图像编码器,从图像中提取特征。对于文字,则使用经过训练的语言模型(如BERT)来提取文本特征。
正面或负式样配对:为每张图像(与图像相匹配的文本说明)和负式样(与图像不匹配的文本说明)生成正式样,这可以通过从数据浓度中随机选择或通过使用特定的数据增强技术来实现。
(4) 比较学习:比较学习模式的核心是比较学习,通过尽量扩大正样之间的相似性和尽量减少负样之间的相似性来训练模型,这通常是通过比较损失功能来实现的。
5) 迭代培训:重复上述步骤,直至模型在测试集上的性能不再显著提高或达到预期的重叠次数。
VAE(自对称编码器)
VAE也是一个原始地图模型,我们可以在认识VAE之前了解其后代AE。
AE 模型由两个部分和编码器编码器(Encoder)组成,被理解为两个神经网络层,一个将高维输入(光)映射为低维代码(代码),另一个将低维代码(代码)映射为高维图像。
如果我们让AE结构首先学习数据 " 新月 " 和 " 满月 ",即 " 新月 " 输出为代码=1和满月输出代码=10,那么我们就想要经过培训的AE输出 " 半月 " 或代码=5,产生不良效果,因为模型培训是固定输入和输出,中间没有灰度,因此,为了解决问题,没有下文提到的VAE。
下文以“新月”满月为例,举例说明VAE如何解决AE的缺陷:
我们可以简单地把它理解为在AE中添加一个积极的功能,这样,不仅代码=1是一个 " 新月 ",代码=0.9,代码=0.8,1.1...不仅代码=10是一个 " 满月 ",代码=10.5,11,9.5...而且是一个满月,因此当代码=5同时具有满月和新月特性时,输出是理想的。
传播(扩散模式)
同样,扩散模式(扩散模式)也是一个原始地图模型,相对于上述GAN(反生成网络)和AVE(自编码)的优势是,产生的图像质量更高,培训过程得到控制和稳定,但计算资源消耗更大。
简而言之,通过在图像中增加噪音来重新缩小图像的微小过程,涉及一个单线网络,以预测噪音的重新定位。
1. 数据集中的噪音图像:
2. 逆向引入单元网络预测噪音,包括培训单元网络:
采用随机噪音图像;
随机噪音图像被插入unet 网络,预测产生多少噪音;
图像结果将从随机图像 -- -- 噪音 -- -- 中获取;
将图像结果和实际正确图像与错误进行比较,然后将反向调整模型进行比较,直到显示正确的图像。
不同的相片数据集形成了一个可识别的单元网络。
3. unet网络使数据集中的图像得以恢复:随机噪音 -- -- unet网络预测的噪音
注:提供Markov链条的相关知识。管道地址:https://www.youtube.com/watch?v=2NruDuyWuyXubk&t=194s
Markov链条在此仅被理解为意味着其结果不受初始值(随机噪音)的影响,通过Markov链条功能可以预测一个固定结果,因此我们可以引入随机噪音。
事实上,我们现在已经熟悉了这个事实 它主要基于扩散模型。
因此DALL-E模型基本上在这里完成, 我们将介绍我们所了解的关于米乔尼 饮用稳定传播的模型, 并且它们所使用的模型基本上在第一部分中呈现出来, 所以我们不会扩大, 我们将简要描述它们使用的模型, 以及一些出生地图的效果。
2022年3月 A. I. 绘画工具
核心模型:CLIP+GAN
Midjourney是一个封闭源码系统。
* 因特网照片源,如果发生违反情况,请与提交人联系删除
九. 2022年8月 2022年8月 AI 绘画工具
核心模型:CLIP+扩散+VAE
稳定扩散是一个开放源码系统
* 因特网上的照片来源,如果发生违反情况,请与作者联系删除
这篇文章由@product fails 发布, 每个人都是产品经理。
根据CC0协议,标题取自Pixabay。
它只代表作者本人,每个人都是一个产品经理平台,仅提供信息存储空间服务。
注册有任何问题请添加 微信:MVIP619 拉你进入群
打开微信扫一扫
添加客服
进入交流群
发表评论