我跪了！OpenAI 发布 DALL·E 2，AI 化身“现实主义画师”，有详细论文

2022 年 4 月 8 日
AI

作者 | Ailleurs、钱磊

编辑 | 陈彩娴

大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL·E 吗？

当时，DALL·E 的画风是这样的：

只要“阅读”文本，DALL·E 就能根据文本的内容“自动”生成栩栩如生的大师级画像。因此，当时一经发布，DALL·E 就火遍了 AI 圈，吸粉无数，也让 Language-Vision（文本-视觉）方向又火了一把。

就在今天！时隔一年后，OpenAI 结合 CLIP，又发布了 DALL·E 的第二个版本——DALL·E 2.0！

相比 DALL·E 1.0，DALL·E 2.0 可以生成更真实和更准确的画像：综合文本描述中给出的概念、属性与风格等三个元素，生成“现实主义”图像与艺术作品！分辨率更是提高了4倍！

比如，当提示文本中分别包含“概念”“An astronaut ”（一个宇航员）、“属性”“riding a horse”（在骑一匹马）和“ 风格”“in a phtprealistic style”（超现实风格）时：

文本提示：An astronaut + riding a horse + in a phtprealistic style（一个宇航员+骑马+超现实风格）

DALL·E 2可以生成如下这些同时包含三种元素的图像：

在满足三种给定元素的基础上，它可是充分发挥了自己的“想象力”，不仅马的姿态各不相同，而且给宇航员穿上了样式各异的服装，场景也是十分丰富，草地上、山顶上、星空中……

神不神奇！牛不牛！

让我们来欣赏 DALL·2.0 的大师作品！

如果你想要变换文本中概念、属性和风格三个元素中的一个或多个，比如保留“概念”“一个宇航员”和“属性”“在骑一匹马”，而将超现实主义风格替换为波普艺术家安迪·沃霍尔的风格，DALL·E 2也可以“轻松”转换它的绘画风格：

文本提示：An astronaut + riding a horse + in the style of Andy Warhol （一个宇航员+在骑一匹马+安迪·沃霍尔的风格）

DALL·E 2生成的图像：

文本提示：An astronaut + riding a horse + as a pencil drawing（一个宇航员+在骑一匹马+铅绘风格）

DALL·E 2生成的图像：

文本提示：An astronaut + lounging in a tropical resort in space + in a vaporwave style（一个宇航员+在太空热带度假胜悠哉地躺着+蒸汽波风格）

DALL·E 2生成的图像：

文本提示：Teddy bears + mixing sparkling chemicals as mad scientists + as a 1990s Saturday morning cartoon（泰迪熊们+正在像疯狂的科学家一样混合着冒泡的化学物质+20世纪90年代的周六早间卡通片风格）

DALL·E 2生成的图像：

文本提示：Teddy bears+shopping for groceries+in the style of ukiyo-e（泰迪熊+购买杂货+浮世绘风格）

DALL·E 2生成的图像：

文本提示：Teddy bears+shopping for groceries+in ancient Egypt（泰迪熊+购买杂货+古埃及风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup+that is a portal to another dimension+as digital art（一碗汤+通往另一个维度的门户+数字艺术风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup+as a planet in the universe+as a 1960s poster（一碗汤+宇宙中的一个星球+1960年代海报风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup+as a planet in the universe+as digital art（一碗汤+宇宙中的一个星球+数字艺术风格）

DALL·E 2生成的图像：

DALL·E 2.0 的其他功能

1、图像编辑

DALL·E 2 可以根据自然语言描述的标题对现有图像进行逼真的编辑，比如，在考虑阴影、反射和纹理的同时增加或删除图中的某个元素。示例如下：

文本描述的编辑需求：选择一个位置在图中添加火烈鸟。

原图 vs. DALL·E 2编辑后的图像：

文本描述的编辑需求：选择一个位置在图中添加柯基。

原图 vs. DALL·E 2编辑后的图像：

2、风格变体

DALL·E 2 可以拍摄一张图片，然后根据原图制作出同一个风格的不同画像。示例如下：

原图 1：

DALL·E 2 创造的同一风格图像：

原图 2：

DALL·E 2 创造的同一风格图像：

原图 3：

DALL·E 2 创造的同一风格图像：

原图 4：

DALL·E 2 创造的同一风格图像：

对于AI从文本生成的图像，我们非常看重的一点当然是图像的分辨率了，图像的分辨率越高，像素数量就越多，图像也就越清晰和逼真。与DALL·E 1相比，DALL·E 2的分辨率提高了4倍！

比如，对于同样的文本提示：

文本提示：a painting of a fox sitting in a field at sunrise in the style of Claude Monet（一只狐狸坐在日出时的田野里+克劳德·莫奈风格）

下面两张图分别是DALL·E 1 和DALL·E 2所生成图像的对比：

对比之下，DALL·E 1 生成的图像可以说是很模糊了，甚至根本看不出“日出”在哪里，“狐狸”只显露出它的头部，“田野”也不太有田野的样子，而且在整体风格上与画家莫奈的印象派风格相去甚远。

而在DALL·E 2的魔法手笔下，图像质量显著提高，“日出”和“田野”都很生动，小狐狸端坐在草地上，姿态可爱。这幅画作色彩更加丰富，使用了更多的复色，对光影的描绘更加接近莫奈的风格。

总体来说，相比 DALL·E 1.0，DALL·2 显然能 hold 住元素更丰富、色彩更饱满的图像。不再是简单的单一物品描述，而是对一个场景的整体表达，故事更完整，想象力也更丰富！

更详细的内容，可以查看 DALL·E 2 的相关研究论文：

论文地址：//cdn.openai.com/papers/dall-e-2.pdf

收下我的膝盖……

参考链接：//openai.com/dall-e-2/

雷峰网

我跪了！OpenAI 发布 DALL·E 2，AI 化身“现实主义画师”，有详细论文

VirMach 便宜 VPS

QNews

我跪了！OpenAI 发布 DALL·E 2，AI 化身“现实主义画师”，有详细论文

分享此文：

Related Posts

基于星环大数据云平台 TDC 的一站式数据湖解决方案

深度学习的数学基础—神经网络的偏导数基础

PNAS新研究：剑桥学者发现，有些 AI 模型无法被计算

对抗攻击方法一览

VirMach 便宜 VPS

QNews

热门搜寻