人工智能艺术中的版权侵权

pappu636 · Post by **pappu636** » Mon Jan 20, 2025 8:49 am

随着人工智能创作工具的普及，人工智能创作的版权问题也成为焦点。不过，尽管版权爱好者们对作者身份问题念念不忘，但艺术家们越来越关注的问题是版权侵权问题。

AI 是通过数据进行训练的，以 Imagen、Stable Diffusion、DALL·E 和 MidJourney 等图形工具为例，训练集由数 TB 的图像组成，包括照片、绘画、图纸、徽标以及任何其他具有图形表示的内容。一些艺术家抱怨说，这些模型（以及随之而来的商业化）是建立在人类艺术家、摄影师和设计师的基础上的，而他们并没有从这些商业模式中看到任何好处。一些论坛和聊天室的语言非常活跃，经常使用“盗窃”和“剥削”等术语。那么这是侵犯版权吗？OpenAI 和 Google 即将被世界各地的艺术家和摄影师起诉吗？

这是一个包含两部分的问题，即输入阶段和输出阶段。

输入

人工智能工具复杂程度的激增得益于两个重要发展，首先是训练模型的改进和多样性，但最重要的是，大量训练数据集的可用性。第一个作品来源是开放获取或公共领域作品，这些来源是根据 Creative Commons 等许可许可的来源（此处示例），或者是属于公共领域的作品（此处示例）。但当然，此类数据集的数量是有限的，因此研究人员可以访问许多其他数据集，有些甚至是免费的（此处和此处列出）。

但研究人员可能还想尝试从世界上最大的图像存储库——互联网中加纳手机数据抓取图像。他们能做到吗？人们越来越认识到，挖掘数据（在本例中是图像形式）在版权下是允许的，属于合理使用或公平交易。训练人工智能的最早例外可以在美国以谷歌图书案的形式找到。这是美国作家协会和谷歌之间关于为名为 Google Print（后来更名为 Google 图书搜索）的服务扫描图书的长期纠纷。在经过漫长的和解和上诉之争后，法院裁定谷歌的扫描行为属于合理使用，扫描的变革性质在判决中发挥了重要作用，此外，复制不会影响在线图书销售市场，谷歌数据库的目的是向图书馆提供作品，并在搜索结果中提供片段。

虽然谷歌图书并不专门涉及机器学习，但它在很多方面与大多数机器学习训练中发生的情况类似，即复制大量作品以产生不同的东西。

在欧盟，《数字单一市场指令》也为更广泛地采用文本和数据挖掘打开了大门。该指令第 3 条规定了一项新的版权例外，即“研究组织和文化遗产机构为了进行科学研究、文本和数据挖掘而复制和提取他们合法获取的作品或其他主题”。第 4 条将此许可扩展至商业组织，只要他们合法获取作品，并且权利人没有因这一例外而保留其权利，则商业组织可以出于任何目的使用此类许可。