[ad_1]
刚刚发生了什么? 研究人员发现,流行的图片创作模型很容易被指示生成真实人物的可识别图像,从而可能危及他们的隐私。 一些提示会导致 AI 复制图片而不是开发完全不同的东西。 这些重制图片可能包含受版权保护的材料。 但更糟糕的是,当代人工智能生成模型可以记住和复制为人工智能训练集使用而收集的私人数据。
研究人员从模型中收集了 1000 多个训练示例,范围从个人照片到电影剧照、受版权保护的新闻图像和商标公司徽标,并发现 AI 几乎完全相同地复制了其中的许多样例。 来自普林斯顿和伯克利等大学以及科技行业(特别是谷歌和 DeepMind)的研究人员进行了这项研究。
同一个团队在之前的一项研究中指出了 AI 语言模型的类似问题,尤其是 GPT2,它是 OpenAI 大获成功的 ChatGPT 的先驱。 在 Google Brain 研究员 Nicholas Carlini 的指导下,团队重新组合乐队,通过向 Google 的 Imagen 和 Stable Diffusion 提供图像说明(例如人名)来发现结果。 之后,他们验证生成的图像是否与模型数据库中保存的原始图像相匹配。
来自 Stable Diffusion 的数据集,即被称为 LAION 的多 TB 刮取图像集合,用于生成下面的图像。 它使用了数据集中指定的标题。 当研究人员将标题输入 Stable Diffusion 提示时,产生了相同的图像,尽管数字噪声略微扭曲了图像。 接下来,团队在重复执行相同的提示后手动验证图像是否是训练集的一部分。
研究人员指出,非记忆的回答仍然可以忠实地代表模型被提示的文本,但不会有相同的像素构成,并且会与任何训练图像不同。
苏黎世联邦理工学院计算机科学教授和研究参与者 Florian Tramèr 观察到这些发现的重大局限性。 研究人员能够提取的照片要么在训练数据中频繁出现,要么从数据集中的其他照片中脱颖而出。 根据 Florian Tramèr 的说法,名字或外貌不常见的人更容易被“记住”。
据研究人员称,扩散 AI 模型是最不私密的图像生成模型。 与早期的图片模型类别生成对抗网络 (GAN) 相比,它们泄漏的训练数据是原来的两倍多。 该研究的目的是提醒开发人员注意与扩散模型相关的隐私风险,其中包括各种问题,例如滥用和复制受版权保护和敏感的私人数据(包括医学图像)的可能性,以及在训练时容易受到外部攻击数据可以很容易地提取出来。 研究人员建议的一个修复方法是识别训练集中重复生成的照片并将它们从数据集合中删除。
[ad_2]
Source link