[ad_1]
人工智能继续完善虚假内容的领域,几年前通过初创公司 OpenAI 的 GPT-3 自然语言处理程序已经掌握了虚假文本。
现在,由于 Tero Karras 和 Nvidia 的同事于 2019 年推出的 Nvidia 的 StyleGAN 等程序已经实现了大量的造假,今年夏天 OpenAI 宣布了一个用于造假图像的新程序 DALL•E 2,从而得到了提振,它以 2021 年 1 月发布的第一个 DALL•E 为基础。它可以将您输入的短语转换为图像,并通过多种方式塑造输出图像。
本周,OpenAI 移除了候补名单; 只要愿意在 OpenAI 的网站上创建一个包含电子邮件地址和电话号码的帐户,任何人现在都可以访问 DALL•E 2。
DALL•E 2 的长处与其前身一样,是从人们在网页上的字段中键入的文本创建图像。 输入短语“一位宇航员以逼真的风格骑马”,图像将大致以这种形式出现:一个穿着宇航员制服的人物轮廓的现实主义渲染,骑在一匹马上,大步跨在看起来像是宇宙。
OpenAI 科学家 Aditya Ramesh 及其同事在 arXiv 预印本服务器上发布的一篇研究论文“使用 CLIP Latents 生成分层文本条件图像”对这项工作进行了描述。
DALL•E 2 被称为对比编码器-解码器。 它是通过将图像及其标题压缩成一种抽象的组合表示,然后对其进行解压缩而构建的。 该培训制度培养了程序将文本和图像关联起来的能力。
Ramesh 及其同事的主要观点是,压缩/解压缩的方式允许人们做的不仅仅是在文本和图像之间进行简单的转换,它还允许人们使用短语来塑造图像的各个方面,例如添加术语“照片级真实感”哪些产品具有某种光滑的现实主义。
虽然图像仍然有些粗糙,但您可以看到 DALL•E 2 具有取代大量商业插图甚至图库摄影的潜力。 通过键入短语和样式,例如“照片”,您可以输出各种可能适合说明文章的图像。
你可以自己试试看。 大多数立即想到的事情都是有趣的组合。 例如,“蓝鲸和小猫在海滩上交朋友,数字艺术”产生了下面可爱的贺卡样式输出。
一次提供四个版本,您可以下载每个版本的 PNG 格式。
但也有可能获得更多适合股票摄影背景的平庸图像。 键入短语“A ZDNet 撰稿人在他们自己的文章中看到了技术的未来,在他们自己的文章中,在太空中盘旋的山坡上”产生了一种科幻形象,接近于一篇文章的内容。
可以添加短语“逼真的图片”并获得更漂亮的东西。
使用短语“非常焦虑的计算机用户盯着他们的计算机显示器并看到 Windows 补丁警报的照片”产生了一系列令人愉快的通常恐惧的计算机用户的图像。
该短语可以用其他词进行放大以获得更具体的结果,例如“非常焦虑的计算机用户的照片” 在他们的办公桌上 盯着他们的电脑显示器,看到一个 Windows 补丁警报。”
一旦你开始沉迷于股票摄影,你会发现你可以想出很多场景来转化为图像。 例如,“一个戴眼镜的人在会议室的会议桌上向几个人指指点点的照片”可以很好地选择第一眼看起来像真实办公室场景的东西。
同样,人们可以通过几句话来获得更具体、不断变化的场景属性,例如“一个戴眼镜的人站在会议室的黑板旁边向同事解释某事的照片”。
如您所见,面部特征等东西在 DALL•E 2 输出中通常会退化。
通过应用艺术家或艺术媒体或风格的术语,人们可以将相同的图像从图库摄影领域转移到插图领域,如短语“弗朗西斯·培根在会议室中描绘的一群人和一个人戴着眼镜站在黑板旁边解释着什么。”
创建帐户后,OpenAI 会为您提供 50 个“积分”,这些是对系统的免费请求,输入的每个短语都算作一个请求。 用完 50 个积分后,您可以等待一个月并获得接下来的 15 个免费积分,也可以购买积分。 积分以 115 个一包的价格出售,价格为 15 美元,即每积分 13 美分。
有可能难倒程序的方式。 有些请求可能过于真实和想象的混合,无法以令人信服的方式呈现。 例如,“蓝色毛皮老鼠占领时代广场”的请求产生了不错的第一次尝试,但毛皮元素给图片带来了一种草率、参差不齐的质量,这实际上并不奏效。
其他请求可能会因选择一个单词而出错。
“一袋钱坐在门廊的草坪椅上俯瞰日落”的请求产生了完全奇怪的、不相关的图像,例如脚趾甲的特写,以及似乎是地毯里插着一些花的模棱两可的图像。
用“放置”一词代替“坐着”,DALL•E 2 在三分之一的图像中产生了令人满意的结果。
当与无生命的物体(麻袋)组合时,程序可能无法为看似活跃的动词(坐)找到合适的元素组合。
总的来说,该程序似乎在“站在画架前”等位置方面存在问题。
不是描述而是问题或感叹词的短语似乎将系统引导到随机模式。 例如,“DALL•E 2 知道自己的名字吗?” 是一种产生多个花朵图像的表达式。 这可能是一种诗意的回应,但感觉更像是对提示的拒绝。
OpenAI 设置了一些护栏,在发布的内容政策中详细说明,它们将用于自动消除任何禁止尝试。 例如,不会生成键入“Microsoft 联合创始人比尔盖茨在一间破旧家具的破旧公寓里抽雪茄”的内容。 相反,会显示一条错误消息,说明该请求违反了政策并将您定向到政策页面。 大概,这是一个违反“不创造公众人物形象”规则的案例。
同样的要求,用不太知名的公众人物蒂尔南·雷(Tiernan Ray)代替 ZDNet 特约作家,生成了一系列有趣的图像,这些图像不是蒂尔南·雷 (Tiernan Ray)。
更重要的是,受版权保护的文本似乎受到保护,不会被大规模侵权。 短语“一群人在麦当劳前闲逛”产生了一个足够合适的场景,但提供的每个结果都对“麦当劳”做了一些细微的修改,使其实际上不是那个词。
下一步将何去何从? 文本到图像的基本方法的工作正在多个方面进行。 一是增加程序的词汇复杂性。 例如,Google Brain 的 Chitwan Saharia 和团队在 5 月发表了他们关于“Imagen”的工作,他们称该程序具有“前所未有的逼真度”。 诀窍是使用更大的语言材料语料库来训练网络。
并且正在做一些工作来扩大程序可以制作的各种事物的复杂性。 例如,谷歌科学家陈文虎及其同事本月创建了一个扩展 Sahari 和团队的 Imagen 的程序,称为“Re-imagen”,它将压缩文本和图像的基本思想与第三个元素——搜索结果结合在一起。
通过添加他们所谓的“检索”,该程序不仅可以找到单词和图像的“语义”组合,还可以在 Internet 搜索结果组合中寻找可以微调输出的组合。 他们声称,在处理罕见的、晦涩的短语(例如“Picarones is serving with wine”,指的是秘鲁红薯甜点)时,结果远远优于 Imagen 和 DALL•E 2。
[ad_2]
Source link