AI绘画的发展历史(GAN、diffusion、VAE…)

资讯 2024-06-09 阅读:63 评论:0
除了使用工具之外,我们的许多同学可能想了解这些图形工具的原则、历史的演变等等,而本篇文章则侧重于人工智能传记的历史和一些现有主流网络模式的运作机制。    随着Midjourney、稳定传播、DALL-E等图形模型的出现,越来越多的学生...
美化布局示例

欧易(OKX)最新版本

【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费!

APP下载   全球官网 大陆官网

币安(Binance)最新版本

币安交易所app【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费!

APP下载   官网地址

火币HTX最新版本

火币老牌交易所【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费!

APP下载   官网地址

除了使用工具之外,我们的许多同学可能想了解这些图形工具的原则、历史的演变等等,而本篇文章则侧重于人工智能传记的历史和一些现有主流网络模式的运作机制。

  

随着Midjourney、稳定传播、DALL-E等图形模型的出现,越来越多的学生开始使用AI传记工具,如文章绘画,在这种工具中,像文章封面这样的创意场景可以直接与AI制作的图片一起使用,这可以说既节省费用,同时又非常方便。

一. 20世纪70年代 亚伦·艾画诞生

  

最早的人工智能绘画可追溯到1970年代,当时艺术家Harold Cohen发明了AARONA,AARONA,AARON, 其最大的特征是它是由机械武器制造的,当然,机器也受通过计算机程序制定的规则和算法的驱动,一些AARON绘画如下:

  

图片风格比学校教科书中的插图要抽象一些,1990年代的 " AARON " 能够以多种颜色绘画,在三维空间创造,而AARON几十年来一直在改进,今天仍在工作。

2006年,伦敦大学史密斯国王学院计算机创造学教授科尔顿制作了类似ARRON的计算机绘画产品,该产品可以观察照片,从照片中提取彩色信息,并使用油漆、油漆或铅笔等实际油漆材料,具体如下:

  

这些都是 " 古典 " 人工智能绘图模型,我们的现代人工智能绘画以深层神经网络为基础,最早可追溯到2012年U-N-Da培训制作 " 猫脸 " 模型时。

二、2012年模糊猫脸

2012年,Google的U-N-Da和Jeff Dean培训了一个模型,该模型以大量猫脸图像为基础,能够制造模糊的猫脸图像,为AI绘画打上重要起点,利用其160万个CPU核心和1 000万张来自YouTube的猫脸图像进行为期三天的培训,并成功培训了能够制造模糊猫脸的深层神经网络模型,利用模型生成的猫脸图像交叉参照下图示:

  

虽然所生成图像的质量不高,但实验标志着为深入学习而生成图像领域的一大进步,表明深入学习模式可以了解图像的复杂特征,并可用于生成新的图像内容。实验使用量神经网络,这是一个特别适合图像识别和处理的深入学习结构。GPT在先前的神经网络演变史中描述了这一模式,而这一文章没有详细描述。

三. 2014年发电反补贴网络(GAN)

2014年,由Ian Goodfelllow和加拿大蒙特利尔大学其他人提议的反网络算法在2014年在加拿大蒙特利尔大学创建了反网络算法,引进了人工智能绘画的新发展,这些绘画基本上是通过发电机和识别资料的反反对过程产生的图像,其原则详述如下:

  

上述图表包含两种模型:生成者和接近者,每个生成者有一个目标,对于生成者来说,目标是使自己制作的图像能够欺骗分隔器,从而使其相信它是原始数据库的真实图象,而不是模型的真实图象,在这种情况下,产出结果接近1(1个实际值),从而产生模型的效果;对于仲裁者来说,产出结果接近0(0个假值),从而产生不同模型的效果;如果产出结果优于0(0个假值),则产生不同模型的效果;如果形成所谓的对峙(GAN),则在原始数据库中产生所谓的结果的可能性大于0,结果值在两个模型和培训目标(一个目标为0,一个目标为1)的情况下,产生的结果值可能大于0,而制作图像的工作是完整的。

我们现在知道的米德乔尼的底部是以GAN模型为基础的。

2015年谷歌深梦2015

2015年, Google推出《深梦影像生成工具》, 虽然更像是先进的过滤器,

  

最上列是原始训练数据集,最下行是深海梦幻所创造的梦幻般摇头丸。

深梦的理由:

假设输入图像为 X, 输入图像可以是随机的噪音或图像。 将此图像输入音量神经网络, 其结果是每个类别的输出概率, 治愈神经网络是排序机器, 如何获取深梦图像? 需要指定标签。 例如, 如果您想要生成类似恒星的图像, 目标标签需要指定为恒星, 然后它会向后传输到输入图像, 以优化输入 X, 如果优化的 X 从音量神经网络获得恒星标记的高度概率, 您就会获得类似恒星的图像 。

注意: 这是对输入图像的像素值的调整, 而不是对卷心神经网络的调整。 在深梦项目中, 用于 curry神经网络的参数是固定的, 只有输入的图像是调整的 。

14岁的GAN和15岁的DeepDream在2021年之前都没有取得文本 > 图片,直到2021年开放AI公司推出出生地图模型DALL-E。

五. 2021年开放AI发射DALL-E

DALL-E模型的革命意义是,实现了文本>图象生成模式,相当于DAL-E,DAL-E,DALL-E的用户输入,迄今为止,DAL-E的用户输入已经更新到第三版,使用的模型可被描述为完全不同。

  DALL-E 1

时间:2021年1月

模型基数:GPT-3(转换)+VAE(自对称编码器)

  DALL-E 2

时间: 2022年4月

示范基础:CLIP(视觉语言预培训模式)+传播(传播模式)

  DALL-E 3

时间:2023年10月

示范基金会:CLIP+VAE+扩散

下面是网上DALL-E2和DALL-E3的比较:

  

涉及许多模型,但我们可以将其分为以下几类:图像描述模型(将用户的提示转换成活的地图模型的说明),例如,GPT-3(转换)、CLIP(视觉语言培训前模型);图像生成模型,VAE(自我对称编码器)、传播(传播模型)。

CLIP(视觉语言预培训模式)

中心理念:在4亿张图像(文本到文本数据集)的基础上,以自我监督的学习方式,最大限度地实现文本和图像之间的相互关系。

  

(1) 具体步骤是:编制数据集:收集大量图像和文本对,这些图像和文本是配对或分开的,理想的情况是,数据应涵盖广泛的类别和情景。

2) 地物提取:预先训练的卷毛神经网络(CNN)用作图像编码器,从图像中提取特征。对于文字,则使用经过训练的语言模型(如BERT)来提取文本特征。

正面或负式样配对:为每张图像(与图像相匹配的文本说明)和负式样(与图像不匹配的文本说明)生成正式样,这可以通过从数据浓度中随机选择或通过使用特定的数据增强技术来实现。

(4) 比较学习:比较学习模式的核心是比较学习,通过尽量扩大正样之间的相似性和尽量减少负样之间的相似性来训练模型,这通常是通过比较损失功能来实现的。

5) 迭代培训:重复上述步骤,直至模型在测试集上的性能不再显著提高或达到预期的重叠次数。

VAE(自对称编码器)

VAE也是一个原始地图模型,我们可以在认识VAE之前了解其后代AE。

  

AE 模型由两个部分和编码器编码器(Encoder)组成,被理解为两个神经网络层,一个将高维输入(光)映射为低维代码(代码),另一个将低维代码(代码)映射为高维图像。

  

如果我们让AE结构首先学习数据 " 新月 " 和 " 满月 ",即 " 新月 " 输出为代码=1和满月输出代码=10,那么我们就想要经过培训的AE输出 " 半月 " 或代码=5,产生不良效果,因为模型培训是固定输入和输出,中间没有灰度,因此,为了解决问题,没有下文提到的VAE。

下文以“新月”满月为例,举例说明VAE如何解决AE的缺陷:

  

我们可以简单地把它理解为在AE中添加一个积极的功能,这样,不仅代码=1是一个 " 新月 ",代码=0.9,代码=0.8,1.1...不仅代码=10是一个 " 满月 ",代码=10.5,11,9.5...而且是一个满月,因此当代码=5同时具有满月和新月特性时,输出是理想的。

传播(扩散模式)

同样,扩散模式(扩散模式)也是一个原始地图模型,相对于上述GAN(反生成网络)和AVE(自编码)的优势是,产生的图像质量更高,培训过程得到控制和稳定,但计算资源消耗更大。

简而言之,通过在图像中增加噪音来重新缩小图像的微小过程,涉及一个单线网络,以预测噪音的重新定位。

1. 数据集中的噪音图像:

  

2. 逆向引入单元网络预测噪音,包括培训单元网络:

采用随机噪音图像;

随机噪音图像被插入unet 网络,预测产生多少噪音;

图像结果将从随机图像 -- -- 噪音 -- -- 中获取;

将图像结果和实际正确图像与错误进行比较,然后将反向调整模型进行比较,直到显示正确的图像。

不同的相片数据集形成了一个可识别的单元网络。

3. unet网络使数据集中的图像得以恢复:随机噪音 -- -- unet网络预测的噪音

  

注:提供Markov链条的相关知识。管道地址:https://www.youtube.com/watch?v=2NruDuyWuyXubk&t=194s

Markov链条在此仅被理解为意味着其结果不受初始值(随机噪音)的影响,通过Markov链条功能可以预测一个固定结果,因此我们可以引入随机噪音。

事实上,我们现在已经熟悉了这个事实 它主要基于扩散模型。

因此DALL-E模型基本上在这里完成, 我们将介绍我们所了解的关于米乔尼 饮用稳定传播的模型, 并且它们所使用的模型基本上在第一部分中呈现出来, 所以我们不会扩大, 我们将简要描述它们使用的模型, 以及一些出生地图的效果。

2022年3月 A. I. 绘画工具

核心模型:CLIP+GAN

Midjourney是一个封闭源码系统。

  

* 因特网照片源,如果发生违反情况,请与提交人联系删除

九. 2022年8月 2022年8月 AI 绘画工具

核心模型:CLIP+扩散+VAE

稳定扩散是一个开放源码系统

  

* 因特网上的照片来源,如果发生违反情况,请与作者联系删除

这篇文章由@product fails 发布, 每个人都是产品经理。

根据CC0协议,标题取自Pixabay。

它只代表作者本人,每个人都是一个产品经理平台,仅提供信息存储空间服务。

美化布局示例

欧易(OKX)最新版本

【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费!

APP下载   全球官网 大陆官网

币安(Binance)最新版本

币安交易所app【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费!

APP下载   官网地址

火币HTX最新版本

火币老牌交易所【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费!

APP下载   官网地址
文字格式和图片示例

注册有任何问题请添加 微信:MVIP619 拉你进入群

弹窗与图片大小一致 文章转载注明

分享:

扫一扫在手机阅读、分享本文

发表评论
平台列表
美化布局示例

欧易(OKX)

  全球官网 大陆官网

币安(Binance)

  官网

火币(HTX)

  官网

Gate.io

  官网

Bitget

  官网

deepcoin

  官网
热门文章
  • DDO在新加坡上市真假,欧意交易所能交易数字期权吗?

    DDO在新加坡上市真假,欧意交易所能交易数字期权吗?
    然而,对于DDO在新加坡的列名是否真实存在争议。 据报道,有人质疑DDO的数字选项是否真的上市,其背景是否经过了彻底调查。 首先,有报告说,DDO数字选项清单仅仅是一种宣传手段,没有找到DDO交易的平台,这就对DDO的真正清单提出了疑问。 其次,一些媒体调查了DDO数字选项的背景。 报告显示DDO数字选项发行人声称其数字选项是国家赞助的,但实际上,根据中国人民银行,虚拟货币相关业务是非法金融活动。 此外,DDO数字选项在视频号码等平台上广为传播,吸引了许多信徒的注意,然...
  • Griffin Gaming Partners计划为其第三支基金筹集5亿美元

    Griffin Gaming Partners计划为其第三支基金筹集5亿美元
    Pitchbook引用的6月8日《快链头条新闻》作为监管文件, 指出游戏风险投资公司Griffin赌博伙伴计划为其第三个旗舰基金筹集5亿美元, 比第二个基金少33%。 2021年,格里芬赌博伙伴从Web3游戏开发者Forte获得A回合资金1.85亿美元,并于2022年筹集了第二个旗舰基金,金额达7.5亿美元,此时风险资本家对Web3和加密游戏的热情达到顶峰。...
  • 加密货币之王重回王位:比特币飙升至 71,000 美元,还能再涨多少?

    加密货币之王重回王位:比特币飙升至 71,000 美元,还能再涨多少?
    比特币是市场上最大的加密货币,它再次打破了重要的7万美元门槛。 在短短的四舍五入(67,000美元到69,000美元之间)之后,价格在这一水平上遇到了强烈的抵制。 然而,势头的不断增强表明,比特币可能形成一个超过70 000美元的板块,为重新测试下一个抵抗阵地71 300美元和3月份可能攀升到历史最高点73 700美元铺平了道路。 问题仍然是:比特币能否维持预期的上升趋势并继续大幅上升?    分析家预计比特币价格将上升到74,400美元。 加密货币分析师Ali M...
  • 比过山车还狠!比特币价格再次暴跌

    比过山车还狠!比特币价格再次暴跌
      上周日,比特币的价格创造了3000美元的历史新高,随后就开始各种高台跳水了。Last Sunday, the price of Bitcoin created a record high of $3,000, and then began to dive on all the high platforms.   据外媒报道,本周一,比特币价格一度下跌到2526.4美元,最高跌幅高达14.5%,这创造了2015年1月以来最大跌幅。According to external...
  • 几张图看懂区块链技术到底是什么?https://www.cnblogs.com/behindman/p/8873191.html

    几张图看懂区块链技术到底是什么?https://www.cnblogs.com/behindman/p/8873191.html
    “区块链”的概念可以说是异常火爆,好像互联网金融峰会上没人谈一谈区块链技术就out了,BAT以及各大银行还有什么金融机构都在开始自己的区块链研究工作,就连IBM最近也成立了自己的区块链研究实验室,但其实区块链到底是什么?大家或许并不清楚,停留在雾里看花的状态。从今天开始,就让我们一起走进区块链,揭开区块链的神秘面纱吧!The concept of a block chain can be described as an unusually hot one, as if no...
标签列表