AI|[视频]OpenAI展示DALL-E 2:AI图像生成器支持编辑图像了
人工智能研究小组 OpenAI 创建了一个新版本的 DALL-E,可以根据用户的自然语言描述来生成图片 。DALL-E 2 是初代系统的高分辨率和低延迟版本,除了根据用户描述生成图片之外,还引入了编辑现有图像等新功能 。
与之前的 OpenAI 工作一样,该工具并没有直接向公众发布 。但研究人员可以在网上注册预览该系统,OpenAI 希望以后能将其用于第三方应用程序中 。
初代 DALL-E 是艺术家“Salvador Dalí”和机器人“WALL-E”的谐音,于 2021 年 1 月首次亮相 。这是对人工智能视觉表现概念能力的一个有限但迷人的测试,从穿法兰绒衬衫的模特的平凡描述到"乌龟做的长颈鹿"或萝卜遛狗的插图 。
【AI|[视频]OpenAI展示DALL-E 2:AI图像生成器支持编辑图像了】
文章图片
使用“Teddy bears mixing sparkling chemicals as mad scientists, steampunk.”描述 DALL-E 2 生成的图像
。当时,OpenAI说它将继续在该系统的基础上发展,同时研究潜在的危险,如图像生成中的偏见或错误信息的产生 。它正试图利用技术保障措施和新的内容政策来解决这些问题,同时也在减少其计算负荷,
DALL-E 2的新功能之一是绘画,在更细的层面上应用DALL-E的文本到图像的能力 。用户可以从现有的图片开始,选择一个区域,并告诉模型来编辑它 。例如,你可以把客厅墙上的一幅画挡住,然后用另一幅画代替,或者在咖啡桌上增加一个花瓶 。
文章图片
使用“Shiba Inu dog wearing a beret and black turtleneck”描述 DALL-E 2 生成的图像
模型可以填充(或删除)物体,同时考虑到细节,如房间里的阴影方向 。另一个功能,变化,有点像一个图片搜索工具,用于搜索不存在的图片 。用户可以上传一张起始图片,然后创建一系列与之相似的变化 。他们还可以混合两张图片,生成具有两者元素的图片 。生成的图片是1024 x 1,024像素,比原始模型提供的256 x 256像素有了飞跃 。
文章图片
使用“An existing image of a room with a flamingo added in one corner.”描述 DALL-E 2 生成的图像
DALL-E 2 建立在 CLIP(计算机视觉系统)的基础上 。OpenAI 研究科学家 Prafulla Dhariwal 说:“DALL-E 1 只是从语言中提取了我们的 GPT-3 方法,并将其应用于制作图像:我们将图像压缩成一系列单词,我们只是学习预测接下来的内容” 。
文章图片
使用“a bowl of soup that looks like a monster, knitted out of wool.”描述 DALL-E 2 生成的图像
但是单词匹配并不一定能捕捉到人类认为最重要的品质,而且预测过程限制了图像的真实性 。CLIP被设计用来观察图像,并以人类的方式总结它们的内容,OpenAI对这一过程进行了迭代,创造了"unCLIP"--一个从描述开始并向图像前进的倒置版本 。
DALL-E 2使用一种叫做“diffusion”的过程生成图像,Dhariwal 将其描述为从“一袋点”(bag of dots)开始,然后用越来越多的细节填入一个图案 。
推荐阅读
- Apple|波兰苹果博物馆将于2022年4月中旬开放 展示大量苹果历史产品
- 视频网站|华纳传媒Discovery合并交易将提前结束 华纳CEO宣布辞职
- 最新消息|Ascend Dynamics公司展示Skypak V1电动喷气背包
- 硬件|DJI Mic为视频与播客用户带来轻巧实惠的无线麦克风选项
- 人物|Tim Cook在世界自闭症意识日展示病患汽车模型摄影师的才华
- 视频网站|用户增速骤降、流媒体竞争激烈:Netflix要求员工谨慎对待支出和招聘事宜
- Google|Google Meet功能更新 增强视频会议安全性与互动体验
- 视频网站|爱奇艺:暂时性名单不意味被强制摘牌和退市 将谋求解决方案
- nVIDIA|英伟达展示RTX3090实时路径追踪技术 效果震撼
- VR|Mojo Vision展示最新AR隐形眼镜原型