大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!
作者 | 耳洞打三金
大家好我是三金,相信大家都还记得上周AI科技评论报道的OpenAI新出的名叫DALL.E的120亿参数神经网络模型,它可以魔法一般按照自然语言文字描述直接生成对应图片!
效果如下所示:
AI生成的图像:

这效果真是绝了!三金我又忍不住把它仅根据文字提示就生成的图像翻了一翻。
AI生成的图像:
AI生成的图像:
AI生成的图像:
AI生成的图像:
AI生成的图像:
AI生成的图像:
相信大家都肯定想亲自动手玩一下,比如很多人都想让AI生成一下“五彩斑斓的黑”
!
可惜啊可惜,OpenAI并不会开放源代码,这个是可以理解的,就算真得开源了我们能跑的起来吗
?
OpenAI也没开放API,不过哪怕开放API,估计也是排不上队,毕竟GPT-3的API,我到现在都没有申请上
。
DALL-E的论文目前也还没有公开,只知道也用到了Transformer模型。
想到这里,三金我真的是我心伤悲啊,毕竟没法亲自实现一些自己想要AI生成的图了,比如让它生成一副清明上河图,我看它能厉害到哪里去
。
伤悲之后,三金我只好继续在上班期间摸鱼划水刷推特……
哇哦(⊙o⊙)!刷着刷着你猜我在推特上看到了什么?
我看到了一只AI生成的“戴着眼镜在咖啡商店里读书的大羊驼”:
呃(⊙o⊙)…这生成的质量肯定没法和财大气粗的DALL.E相比,不过我们这一次却是有机会可以亲自动手尝试啦!
因为上图是推特上的网友利用AI艺术家Adverb分享的Colab notebook上面的代码跑出来的。
Adverb表示这项使用SIREN和CLIP体系架构和模型从文本生成图像的工作是在Alexander 的“Deep Dream”影响下,使用OpenAI开源的的CLIP模型将SIREN函数学习到的图像与给定的文本描述进行合适的匹配。该工作可以作为一个很好的出发点,为这个方向做一点小启发。
CLIP就是OpenAI在DALL.E之外同时推出的另一个AI模型,CLIP能够将图像映射到文本描述的类别中。
在这里的SIREN函数则是指斯坦福大学的一篇有关周期激活函数的隐式神经表示的论文:《Implicit Neural Representations with Periodic Activation Functions》
论文链接://arxiv.org/pdf/2006.09661.pdf
开源代码是在Colab notebook上面,这意味着大家可以直接在网页端跑代码!
而且不用手动配置环境!不用手动配置环境!不用手动配置环境!

传送门://colab.research.google.com/drive/1FoHdqoqKntliaQKnMoNs3yn5EALqWtvP?usp=sharing
我们首先来看一下AI开发者Deyan利用上面这个模型代码(32层的网络)生成上面大羊驼(三金我特意查了一下,发现大羊驼和“草泥马”很像,但是是不同的科种)的过程吧:
之后随着迭代的不断进行,可以清晰地看到图像背景细节的添加,如在第300步可以看到商店的摆设隐约出现,且在大羊驼的右下方隐约出现了咖啡杯:
在训练的第750步,在大羊驼的右下方咖啡杯完全出现了:
迭代了2100次后,AI完成了一些锐化背景的工作,但是我们不确定它是在看一本书还是爆米花:
经过10000次的迭代之后,模型已经饱和了,Deyan表示也许快速迭代第一个草图可能是个好策略。
之后Deyan同样用了32层的网络、以及用RTX 3090显卡训练AI生成“由瑞士奶酪和樱桃制成的摩天大楼。”
这个效果确实让人难以恭维啊,勉强能看吧
以下还有AI艺术家Adverb以及AI开发者Deyan等人生成的更多图像的成功或失败的样例。
下面这是?骑着滑板的林肯? 还是拿着电锯的林肯???
上帝的脸(一):这上帝可真吓人,这是魔鬼吧
匿名动画人:(好家伙,这不止匿名了,脸也匿了起来)
Adverb还试图结合GAN生成一只白色金鱼,不过这好像太简单了,金鱼早就被给出了。
Adverb还表示道他想要生成“悟空”,但结果却生成一只狗子。
他对这只“狗子”非常失望,认为它阻塞了神经网络通道。
Adverb说道他尚未在其他任何提示上进行测试,但是受CLIP指导下的BigGAN神经网络模型可以为新世纪福音战士的Asuka制作一些有趣的图像。
之后,三金我还发现了AI艺术家Matio把StyleGAN2模型和CLIP模型的生成图做了对比,左图是StyleGAN2生成的绿头发的悲伤男人,右图是戴着太阳镜的红头发女人。
抛开DALLE.E不谈,上面的这些生成质量到底如何呢?
最后,关于文本生成图像的过往研究大家可以查看Paperwithcode上面列出的各项数据集上面的Benchmarks。

传送门://paperswithcode.com/task/text-to-image-generation
//twitter.com/quasimondo/status/1347956102898606081
//twitter.com/dginev/status/1348822689499275265

点击阅读原文,直达IJCAI小组!
由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号,以及常点文末右下角的“在看”。