欢迎来到某某官网,某某是一家生产阳光板耐力板厂家,品质保障,欢迎咨询!

返回列表页

OpenAI多模态新进展:DALL-E3时隔一年半更新,再次颠覆艺术界

文 /腾讯科技 郭晓静、郝博阳

北京时间9月21日凌晨,OpenAI 宣布企生成式AI艺术平台DALL-E的第三个版本——DALL-E 3已经进入研究预览阶段,并将于10月通过API提供给ChatGPT Plus的用户和企业客户。

一、改变人机交互方式,AI作画更简单

DAll-E 3最大的意义在于,它改变了人与AI交互的方式。你只需要向ChatGPT提问,告诉它你想看到什么,ChatGPT就会根据你的需求,生成为Dall-E 3定制的详细提示。这降低了复杂提示语对使用AI进行艺术创作的高门槛不仅对 Dall-E 来说是向前迈出的一大步,对整个生成人工智能艺术来说也是如此。OpenAI 表示,“与ChatGPT的这种联系让更多的人能够创作人工智能艺术,因为他们不必非常擅长提出提示。”

Dall-E3更像是把ChatGPT作为人类的一个助手,人类和ChatGPT沟通、并和ChatGPT一起头脑风暴,ChatGPT把人类的想法翻译成更能让Dall-E 3理解的”提示语“,最终让人类的想法能得到AI更精确的实现。

Dall-E3 还允许用户通过 ChatGPT 完善创作,就好像他们要求真正的艺术家进行更改一样。“你真的不必担心很长的提示,”首席研究员兼 Dall-E 团队负责人 Aditya Ramesh 说。“相反,您可以与 ChatGPT 进行交互,就像与同事交谈一样。”

OpenAI Twitter的官网上还发布了演示视频,详细展示如何操作:

首先,在ChatGPT的界面上输入提示词,之后ChatGPT会返回四张生成的图片。就如Aditya Ramesh 所说,如果你不满意,还可以让ChatGPT进行修改。

二、

让图文生成言出法随,细节绘制效果炸裂

除了提示词非常复杂之外,对于经常使用 Stable Diffusion 或 Midjourney 的AI画师来讲,很多时候提示就像炼丹,模型生成的画面总有和你的提示对不上的地方。这在很大程度上反映出文字生成图像AI对于文字与图像之间对应关系存在着理解误差,会倾向于忽略单词或描述。在这方面,从Dalle 2开始就采用Clip技术建立了图像到文字映射编码的OpenAI做出了新的突破:言说即所得。你进行提示的自然语言中的所有细节都和生成内容能够一一对应。

在OpenAI给出的展示中,你可以看到提示词中所有的细节都被精准地被还原了出来。

但在OpenAI给出的示例图中,其实我们也看到了一些缺乏对应细节的情况:比如这张宝藏沉船图里压根儿就没有宝藏。

除了简化“提示工程”,让人和机器的对话门槛更低,DALL·E 3还可以准确地表示具有特定对象和它们之间关系的场景。在生成图像中的文本以及手部等人体细节方面,DALL·E 3相比DALL·E 2有显著的改进。

在同样提示词下,Dalle-2和Dalle-3的细节表现明显

以下这张图像由 Dall-E 3 渲染,Dall-E 3 首先根据以下提示生成了这张图像:“一幅由半透明玻璃制成的人类心脏的插图,站在波涛汹涌的大海中的基座上。阳光穿透云层,照亮心灵,露出里面的小宇宙”。“找到你内心的宇宙”这句话被用粗体字母蚀刻在地平线上。”我们可以清晰地看到这张图像透明的质感,以及清晰的文字。

AI 艺术由 OpenAI 提供

三、版权争议仍在,OpenAI回应

关于争议最大的版权问题,该公司的政策研究员Sandhini Agarwal表示,她对其安全措施“非常有信心”,但OpenAI在官网澄清说,”该模式不断改进,并不完美“。OpenAI的代表在一封电子邮件中表示,DALL-E 3已经接受了拒绝”以在世艺术家的风格“生成图像的训练。不同于DALL-E 2,当提示时,DALL-E 2还可以模仿某些在世艺术家的风格。

为了避免诉讼,OpenAI还将允许艺术家从未来版本的文本到图像AI模型中选择自己的艺术。创作者可以在其网站上提交一张他们拥有权利的图片,并以表格形式要求删除。DALL-E的未来版本可以阻止看起来与艺术家的图像和风格相似的结果。艺术家起诉DALL-E的竞争对手Stability AI和Midtravel,以及艺术网站DeviantArt,指控他们使用受版权保护的作品训练文本到图像模型。

图为 Reddit上关于DALL-E版权问题的讨论

四、外界可能再也看不到DALL-E3的技术细节了

Dall-E 是皮克斯角色 Wall-E 和艺术家萨尔瓦多·达利 (Salvador Dalí) 的合成词,OpenAI于 2021 年对外界宣布了DALL-E 。DALL-E可以将自然语言形式表达的大量概念转换为恰当图像。

DALL-E根据提示语生成的图片(来源于OpenAI 官网)

2022年4月,DALL-E2发布,根据OpenAI的官网介绍,DALL-E2在对提示语反应的准确度,及照片的真实度上,都有大幅提升。并同时公开了关于DALL-E2的论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》,在其中OpenAI的底层技术Clip编码和GLIDE优化扩散模型的细节都得到了完整的披露。

很遗憾的是,时隔一年半,DALL-E3终于要面世,然而我们还未在官网上找到OpenAI公布的任何技术细节,而且很有可能不会再被公开。

不管怎样,DALL-E3的推出,及其与ChatGPT的集成,让外界继续看到了OpenAI在多模态的进展中迈出一步。就在两周前,据外媒报道,OpenAI的全新多模态模型Gobi似乎已经在筹备中,而OpenAI并未做出任何正面回应。就在上周,谷歌已经对一些公司开放了多模态大模型Gemini的功能。两个巨头的多模态对决一触即发。

Nvida 科学家Jim Fan一针见血

关于我们

北京某某塑料板材有限公司

皇马娱乐塑料板材净化公司是一家集皇马注册,登录,开户,APP下载的耐力板,阳光板厂家,公司配置24小...

在线咨询在线咨询
咨询热线 020-88888888


返回顶部

平台注册入口