找回密码
 立即注册
搜索

引燃AI社区,OpenAI新模型打破自然言语与视觉次元壁

艺术创作的事,当后人类只需动手打几个字,其他的交给 AI 就行了。


自然言语与视觉的次元壁正在被打破。这不,OpenAI 最近连发大招,提出两个衔接文本与图像的神经网络:DALL·E 和 CLIP。DALL·E 可以基于文本直接生成图像,CLIP 则可以完成图像与文本类别的婚配。OpenAI 的新工作惹起了 AI 圈的一阵喝彩。



Coursera 创始人、斯坦福大学教授吴恩达也表示恭喜,并选出了本人喜欢的「蓝色衬衫 + 黑色长裤」AI 设计。






那么,大佬打算购入几件其他「蓝色」的衬衫吗



OpenAI 结合创始人、首席迷信家 Ilya Sutskever 表示:人工智能的长期目的是构建「多模态」神经网络,即 AI 系统可以学习多个不同模态的概念(次要是文本和视觉范畴),从而更好地了解世界。而 DALL·E 和 CLIP 使我们更接近「多模态 AI 系统」这一目的。








第一个神经网络 DALL·E 可以将以自然言语方式表达的大量概念转换为恰当的图像。值得留意的是,DALL·E 运用了 GPT-3 异样的方法,只不过 DALL·E 将其运用于文本 - 图像对。






DALL·E 示例。给出一句话「牛油果外形的椅子」,就可以获得绿油油、形状万千的牛油果椅子图像。



另一个神经网络 CLIP 可以牢靠地执行一系列惊人的视觉辨认义务。给出一组以言语方式表述的类别,CLIP 可以立刻将一张图像与其中某个类别停止婚配,而且它不像标准神经网络那样需求针对这些类别的特定数据停止微调。在 ImageNet 基准上,CLIP 的功能超过 ResNet-50,在辨认不常见图像义务中的功能远超 ResNet。



DALL·E:从文本生成图像



DALL·E 是 GPT-3 的 120 亿参数版本,经文本 - 图像对数据集训练后,可基于文本描画生成图像。DALL·E 这个称号来源于皮克斯动画经典作品《机器人总动员(WALL·E)》。



有意思的是,它还可以将动物和物体拟人化,将一些有关的概念以一种合理的方式组合起来。



比如,穿着芭蕾 tutu 裙遛狗的胡萝卜:








细细观察,可以看出 DALL·E 是怎样将人体构造迁移到其他生物的。假如你想让一支胡萝卜喝拿铁咖啡或骑独轮车,DALL·E 会把生成图像中的方巾、手脚放在合理的地位。



还比如,生成写着 OpenAI 的商店招牌:








通常 DALL·E 写入的字符串越长,成功率会降低一些。而文字有反复的时分,成功率会变高。虽然样本变得更简单,但随着采样温度的降低,成功率有时分会提升。



和 GPT-3 一样,DALL·E 是一种 Transformer 言语模型。它以包含多达 1280 个 token 的单数据流方式接收文本和图像,并应用最大似然停止训练,逐终身成一切 token。



token 是来自不延续词汇表的恣意符号。对于人类来说,每个英文字母都是来自字母表的 token。DALL·E 的词汇表有文本和图像的 token。每个图像的文本描画运用最大 256BPE 编码的 token 表示,词汇表的大小是 16384;图像则运用 1024 个 token 表示,词汇表大小是 8192。



在最新博客中,OpenAI 详细引见了 DALL·E 的「百变功能」,每一段文字的生成示例展现了 512 个生成结果中的前 32 名(根据 CLIP 的排序,过程中没有任何人工参与挑选的步骤)。



控制属性



在修正对象属性的才能方面,研讨者对 DALL·E 停止了测试。DALL·E 可以用多边形外形渲染熟习的对象,甚至是在理想世界中不太能够发生的状况。比如这些诡异的「绿色闹钟」:








绘制多物体图像



同时控制多个对象及其属性、空间关系,是一个新的应战。比如「戴红色帽子、黄色手套,穿蓝色衬衫、绿色裤子的刺猬」,DALL·E 生成效果如下:








虽然 DALL·E 对大批物体的属性和地位提供了一定程度的可控性,但成功率能够仍取决于文本的表述方式。此外,DALL·E 还很容易混淆不同对象及其颜色之间的关联。



可视化透视图和三维图



DALL·E 还可以控制场景视点和渲染场景的 3D 样式,例如:






不同角度的美洲狮。



可视化内外部结构



DALL·E 还可以渲染出横截面视图的外部结构,以及经过微距相片展现事物的外部结构。例如核桃的横截面视图:








推断语境细节



文本转图像义务是非明白指定的,一个文本描画通常对应许多合理图像,因此图像并非独一指定的。例如,对于文本描画「坐着看日出的水豚鼠」,能够需求根据水豚鼠的方位画出暗影,虽然这并没有在文本描画中明白提及。DALL·E 可以处理以下三种情形中的非指定成绩:改变风格、设置和工夫;在不同场景中绘制相反的对象;生成带有特定文本的对象(例如上文提到的写着 OpenAI 的商店招牌)。



下图展现了 AI 生成的「看日出的水豚鼠」,这些图像具有不同的风格,如波普艺术风格、超理想主义风格、浮世绘风格等等。








时兴和室内设计



DALL·E 还可以运用到时兴设计与室内设计,例如身穿蓝色衬衫和黑色裤子的橱窗模特:








将不相关的概念结合起来



言语的复合性使得我们可以将多个概念组合在一同来描画真实和想象中的事物。而 DALL·E 也具有将不同 idea 结合起来并合成物体的才能,甚至有的物体在理想世界中并不存在。例如,将多种不同概念的特点迁移到动物身上,从不相关的概念中汲取灵感来设计产品(例如本文扫尾提到的牛油果椅子)。



下列示例就将「竖琴」和「蜗牛」这两个八竿子打不着的事物组合到了一同:








动物插图



DALL·E 不只能将不相关的概念衔接到一同,它还能将这一才能运用到艺术范畴。例如,动物和物体的拟人化版本、动物嵌合体和 emoji。



下图展现了「长颈鹿龟」这一新物种:






奇异的物种又添加了。



零次视觉推理



只需给出文本描画或提示,GPT-3 就能执行多种义务,且无需额外训练。这种才能叫做「零次推理」(zero-shot reasoning)。而 DALL·E 将该才能扩展到视觉范畴,在给出恰当提示的状况下,它可以执行多种图像翻译义务。



例如给出文本「为上方猫图提供简笔画版本」,你会得到:








不过,义务要求不同,得到图像的牢靠性也不相反。



地理知识



DALL·E 还能学习地理理想、地标建筑和街区。它有时分可以非常准确地学习这些知识,但有时分又会在其他方面出现缺陷。例如,给出文本「中国美食」,它可以生成大量相关美食图像,但无法完全涵盖理想中我国美食的多样性。






这些美食的确素昧平生,但又感觉并没吃过



工夫知识



DALL·E 的才能可不止于此,它还可以展现某个概念的时代变迁史。例如给出文本「上世纪 20 年代以来的手机图像」,你将会得到各个年代的手机照片:








CLIP:衔接文本与图像



除了基于文本生成图像的 DALL·E,OpenAI 还引见了另一项工作 CLIP。



CLIP 旨在处理深度学习方法在计算机视觉范畴中所面临的的一些次要成绩,如创建视觉数据集的人力和成本成绩、数据集涵盖的视觉概念过于狭窄、标准视觉模型只擅长一种义务且需求很多努力才能顺应新义务、基准测试中表现良好的模型在压力测试中表现蹩脚等等。



为此,CLIP 模型在多种多样的图像上停止训练,这些图像具有多种自然言语监督,并且很容易在网络上获得。



在设计上,CLIP 可以应用自然言语获得指点以执行多种分类基准义务,无需针对基准功能直接优化,这相似于 GPT-2 和 GPT-3 的「zero-shot」才能。这是一个关键改变:由于不直接针对基准停止优化,研讨者发现 CLIP 更具有表征性。该系统将这种「鲁棒性差距」减少了 75%,同时在不运用任何原始 1.28M 标注示例的状况下,CLIP 在 ImageNet zero-shot 上的功能媲美原版 ResNet 50。



下图为 CLIP VIT-L 与 ResNet101 在 ImageNet 数据集上的功能对比。虽然两者在原始 ImageNet 测试集上具有相反的准确率,但在不同的非 ImageNet 设置下测量准确率的数据集上,CLIP 更具有表征性。








方法



CLIP 运用了大量可用的监督资源,即网络上找到的文本 - 图像对。这些数据用于创建 CLIP 的代理训练义务,即给定一张图像,然后预测数据集中 32,768 个随机采样文本片段中哪个与该图像婚配。



为了处理这一义务,研讨者以为 CLIP 模型需求学习辨认图像中各种各样的视觉概念,并将这些概念与各自的称号联络起来。这样一来,CLIP 模型可用于几乎一切视觉分类义务中。例如,假如数据集的义务是对狗和猫的照片停止分类,则我们会针对每张图像检查 CLIP 模型预测的文本描画「狗的照片」或「猫的照片」能否更有能够与之相婚配。



狗和猫照片的分类义务流程如下图所示,其中包括对比预训练、从标签文本中创建数据集分类器和 zero-shot 预测。








CLIP 的亮点



CLIP 非常高效,它从未过滤、多种类和高噪声的数据中学习,并希望以 zero-shot 的方式运用。为了减少所需的计算量,研讨者重点探求了如何从算法角度提升 CLIP 的训练效率。



研讨者提供了两种大幅降低计算量的算法。第一种算法采用对比目的(contrastive objective)来衔接文本和图像。他们最后探求了相似 VirTex 的图像到文本方法,但在将其扩展以完成 SOTA 功能过程中遇到了困难。在中小规模实验中,研讨者发现,CLIP 运用的对比目的方法在 zero-shot ImageNet 分类中的效率提升了 3 至 9 倍。



第二种算法采用 Vision Transformer,使得计算效率相比标准 ResNet 有 3 倍提升。最后,表现最好的 CLIP 模型在 256 个 GPU 上训练了 2 周左右的工夫,这与目前大型图像模型相似。



结果表明,经过 16 天的 GPU 训练,在训练 4 亿张图像之后,Transformer 言语模型在 ImageNet 数据集上仅完成了 16% 的准确率。CLIP 则高效得多,完成相反准确率的速度快了大约 9 倍。详细如下图所示:








此外,CLIP 灵敏且通用。这是由于 CLIP 模型直接从自然言语中学习多种多样的视觉概念,所以比现有 ImageNet 模型更灵敏且具有更强的通用性。研讨者发现 CLIP 模型可以 zero-shot 执行很多不同义务。为了验证这一点,研讨者在包含细粒度目的检测、地理定位以及视频动作辨认和 OCR 等义务的 30 多种不同数据集上测量了 CLIP 的 zero-shot 功能。



结果表明,在 26 个测试的不同迁移数据集上,表现最好的 CLIP 模型在其中 20 个数据集上优于 Noisy Student EfficientNet-L2(公开可用的最佳 ImageNet 模型)。详细如下图所示:








局限性



虽然 CLIP 在辨认常见对象时往往表现良好,但在计算图像中对象数量等更笼统或更系统的义务,以及预测照片中最接近车辆间的间隔等更复杂义务上的表现不佳。在这两项义务上,zero-shot CLIP 的效果也只比随机猜测好一点。



此外,与特定于义务的模型相比,zero-shot CLIP 在非常细粒度的分类义务上表现不佳,比如区分汽车模型、飞机型号或者花卉种类等。CLIP 对其预训练数据集中未涵盖的图像也表现出蹩脚的泛化功能。



最后,研讨者发现,CLIP 的 zero-shot 分类器对用词或措辞也非常敏感,有时需求反复实验和误差「prompt engineering」才能表现良好。



原文链接:

https://openai.com/blog/dall-e/

https://openai.com/blog/clip/

https://openai.com/blog/tags/multimodal/

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评8

罗启明罗 2021-1-6 18:51:05 显示全部楼层
不需求艺术家了。谁说AI 不懂艺术
回复

使用道具 举报

A_l_t_a_i_r 2021-1-6 18:54:04 显示全部楼层
OpenAI是马斯克等在2016年创立的非盈利组织,用来预防人工智能的灾难性影响。
回复

使用道具 举报

里程碑
回复

使用道具 举报

分享了
回复

使用道具 举报

bossfmj.com 2021-1-6 19:03:35 显示全部楼层
分享了
回复

使用道具 举报

very good
回复

使用道具 举报

纳兰契 2021-1-8 15:30:48 来自手机 显示全部楼层
好,很好,非常好!
回复

使用道具 举报

3wingsun29 2021-1-9 12:38:47 显示全部楼层
有没有什么需要注意的?
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies