[ad_1]
随着生成式 AI 进入 主流,每个新的一天都会带来新的诉讼。
微软、GitHub 和 OpenAI 目前在一项集体诉讼中被起诉,指控他们允许 Copilot(一种在数十亿行公共代码上训练的代码生成 AI 系统)在不提供信用的情况下反省许可代码片段,从而违反版权法。
流行的 AI 艺术工具背后的两家公司 Midjourney 和 Stability AI 正处于一起法律案件的十字路口,该案件指控他们通过在网络抓取的图像上训练他们的工具侵犯了数百万艺术家的权利。
就在上周,图片供应商 Getty Images 将 Stability AI 告上法庭,据报道,该公司未经许可使用其网站上的数百万张图片来训练 Stable Diffusion,这是一种艺术生成 AI。
问题主要在于生成式 AI 倾向于从用于训练它的数据中复制图像、文本等(包括受版权保护的内容)。 在最近的一个例子中,CNET 用来编写解释性文章的 AI 工具被发现抄袭了人类撰写的文章——这些文章可能在其训练数据集中被清除了。 与此同时,去年 12 月发表的一项学术研究发现,像 DALL-E 2 和 Stable Diffusion 这样的图像生成 AI 模型可以并且确实从它们的训练数据中复制了图像的各个方面。
根据 Pitchbook 的数据,生成式 AI 领域仍然健康——到 2022 年 11 月,它筹集了 13 亿美元的风险投资,比前一年增长了 15%。 但法律问题开始影响业务。
一些图片托管平台已经禁止了人工智能生成的内容,因为担心会遭到法律反击。 几位法律专家警告说,如果公司无意中将这些工具生成的受版权保护的内容整合到他们销售的任何产品中,那么生成式人工智能工具可能会使公司面临风险。
“不幸的是,我预计几乎所有生成的人工智能产品都会面临大量诉讼,”开源软件许可法律专家、OSS Capital 的普通合伙人 Heather Meeker 通过电子邮件告诉 TechCrunch。 “版权法需要澄清。”
波兰艺术家 Greg Rutkowski 等内容创作者以创作奇幻风景而闻名,他们已成为抗议生成式 AI 初创公司对待艺术家的活动的代言人。 Rutkowski 曾抱怨说,输入“手持剑和发光的魔法火球的巫师与凶猛的龙 Greg Rutkowski 战斗”这样的文字会产生与他的原作非常相似的图像——这会威胁到他的收入。
鉴于生成式 AI 不会有任何进展,接下来会发生什么? 哪些法律案件有价值,哪些法庭争斗即将展开?
Nixon Peabody 的知识产权律师 Eliana Torres 表示,针对 Stability AI、MidJourney 和 DeviantArt 的集体诉讼指控在法庭上难以证明。 特别是,她认为很难确定哪些图像用于训练 AI 系统,因为系统生成的艺术作品不一定看起来与任何训练图像完全一样。
像 Stable Diffusion 这样最先进的图像生成系统就是所谓的“扩散”模型。 扩散模型在处理大量训练数据集时学习根据文本提示(例如“栖息在窗台上的鸟的草图”)创建图像。 这些模型被训练为“重新创建”图像,而不是从头开始绘制图像,从纯噪声开始,并随着时间的推移改进图像,使其逐渐接近文本提示。
在托雷斯看来,完美的娱乐活动并不经常发生。 至于具有特定艺术家风格的图像,事实证明几乎不可能用版权来保护风格。
“要获得普遍接受‘以……的风格’定义为‘其他人会接受为该艺术家创作的作品’的作品,这将……具有挑战性 风格 被要求,’这是在投诉中提到的 [i.e. against Stability AI et al],”托雷斯在接受电子邮件采访时告诉 TechCrunch。
托雷斯还认为,诉讼不应针对这些人工智能系统的创造者,而应针对负责编译用于训练它们的图像的一方:大型人工智能开放网络 (LAION),一个非营利组织。 MidJourney、DeviantArt 和 Stability AI 使用来自 LAION 数据集的训练数据,这些数据集涵盖了来自网络的数十亿张图像。
“如果 LAION 创建了数据集,那么所谓的侵权就发生在那个时候,而不是在数据集被用来训练模型之后,”Torres 说。 “这就像一个人可以走进画廊欣赏画作但不允许拍照一样。”
像 Stability AI 和 OpenAI 这样的公司,ChatGPT 背后的公司现在价值 TKTK,长期以来一直声称,如果他们的系统接受了许可内容的培训,“合理使用”可以保护他们。 美国法律规定的这一原则允许对受版权保护的材料进行有限使用,而无需事先获得权利人的许可。
支持者指出这样的案例 作者协会诉谷歌, 其中,总部位于纽约的美国第二巡回上诉法院裁定,谷歌在没有许可的情况下手动扫描数百万本受版权保护的书籍以创建其图书搜索项目属于合理使用。 合理使用的构成不断受到挑战和修正,但在生成人工智能领域,这是一个特别未经检验的理论。
彭博法律最近的一篇文章断言,合理使用抗辩的成功将取决于人工智能生成的作品是否被考虑 变革性的– 换句话说,他们是否以与原件有很大不同的方式使用受版权保护的作品。 以前的判例法,特别是最高法院的 2021 年判例法 谷歌诉甲骨文 决定表明,使用收集到的数据来创作新作品可能具有变革性。 在那种情况下,谷歌使用部分 Java SE 代码来创建其 Android 操作系统被认为是合理使用。
有趣的是,其他国家/地区已发出信号,表示将更加宽松地使用公开可用的内容——无论是否受版权保护。 例如,英国正计划调整现有法律,允许“出于任何目的”挖掘文本和数据,将权力的平衡从权利人手中转移到企业和其他商业实体手中。 然而,美国没有兴趣接受这种转变,而且托雷斯预计这种情况不会很快改变——如果有的话。
TKTK 过渡(比……更细微)
Getty 的案例稍微微妙一些。 盖蒂-哪个 Torres notes 尚未提出正式投诉——必须展示损害赔偿并将其指控的任何侵权行为与特定图片联系起来。 但盖蒂的声明提到,它对经济损失不感兴趣,只是在寻求“新的法律现状”。
专注于人工智能的律师事务所 BNH.ai 的创始人之一安德鲁伯特不同意 托雷斯认为,针对知识产权问题的生成式人工智能诉讼将“相对简单”。 在他看来,如果受版权保护的数据被用于训练 AI 系统——无论是因为知识产权还是隐私限制——这些系统应该并且将会受到罚款或其他处罚。
Burt 指出,联邦贸易委员会 (FTC) 已经在通过所谓的“算法非法所得”走这条路,迫使科技公司杀死有问题的算法以及他们用来训练它们的任何不正当数据。 在最近的一个例子中,联邦贸易委员会使用算法非法所得的补救措施,迫使 Everalbum(一款现已停产的名为 Ever 的移动应用程序的制造商)删除该公司使用其应用程序用户上传的内容开发的面部识别算法。 (Everalbum 没有明确表示用户的数据被用于此目的。)
“我希望生成式人工智能系统在这方面与传统人工智能系统没有什么不同,”伯特说。
那么,在没有先例和指导的情况下,公司该怎么办? 托雷斯和伯特一致认为没有明显的答案。
就她而言,托雷斯建议仔细查看每个商业生成人工智能系统的使用条款。 她指出,MidJourney 对付费用户和非付费用户拥有不同的权利,而 OpenAI 的 DALL-E 将围绕生成的艺术作品的权利分配给用户,同时还警告他们“类似内容”并鼓励尽职调查以避免侵权。
“企业应该了解使用条款并尽职调查,例如对打算用于商业用途的生成作品使用反向图像搜索,”她补充说。
Burt 建议企业采用风险管理框架,例如美国国家标准技术研究院发布的 AI 风险管理框架,该框架就如何解决和减轻 AI 系统设计和使用中的风险提供了指导。 他还建议公司持续测试和监控他们的系统以寻找潜在的法律责任。
“虽然生成式 AI 系统使 AI 风险管理变得更加困难——公平地说,监控一个对风险进行二元预测的 AI 系统要直接得多——但可以采取具体行动,”Burt 说。
一些公司在活动家和内容创作者的压力下,已经朝着正确的方向采取了措施。 Stability AI 计划允许艺术家选择退出用于训练下一代稳定扩散模型的数据集。 通过网站 HaveIBeenTrained.com,权利持有人将能够在几周后的培训开始前请求退出。 竞争对手 OpenAI 不提供这种选择退出机制,但该公司已与 Shutterstock 等组织合作,许可其部分图片库。
对于 Copilot,GitHub 引入了一个过滤器,可以根据公共 GitHub 代码检查代码建议及其周围大约 150 个字符的代码,并在匹配或“接近匹配”时隐藏建议。 这是一项不完美的措施——启用过滤器可能会导致 Copilot 省略归因和许可文本的关键部分——但 GitHub 表示计划在 2023 年推出其他功能,旨在帮助开发人员就是否使用 Copilot 的建议做出明智的决定。
从一万英尺的角度来看,伯特认为,在不了解如何解决其危险的情况下,生成人工智能的部署越来越多。 他赞扬为解决明显问题所做的努力,例如使用受版权保护的作品来训练内容生成器。 但他警告说,系统的不透明性会给企业带来压力,以防止系统造成严重破坏,并制定计划在系统投入使用之前解决系统的风险。
“生成人工智能模型是人工智能最令人兴奋和新颖的用途之一——具有改变‘知识经济’的明显潜力,”他说。 “就像许多其他领域的人工智能一样,这项技术基本上已经存在并且可以使用。 尚未成熟的是管理其所有风险的方法。 如果不对这些系统的危害进行深思熟虑、成熟的评估和管理,我们就有可能在了解如何阻止技术造成损害之前就部署该技术。”
米克尔更为悲观,他认为并非所有企业——无论他们采取何种缓解措施——都能够承担与生成人工智能相关的法律费用。 她说,这表明迫切需要澄清或修改版权法。
“如果人工智能开发人员不知道他们可以使用哪些数据来训练模型,那么这项技术可能会倒退数年,”米克尔说。 “从某种意义上说,他们无能为力,因为如果企业无法合法地在免费提供的材料上训练模型,他们将没有足够的数据来训练模型。 只有各种长期解决方案,如选择加入或选择退出模型,或汇总支付给所有作者的版税的系统……针对 AI 企业摄取受版权保护的材料来训练模型的诉讼可能会削弱该行业, [and] 可能会导致限制创新的整合。”
[ad_2]
Source link