AI训练数据收集受限:Google和OpenAI面临版权法挑战

Google和OpenAI正面临着版权法在其AI训练数据收集方面的限制。随着ChatGPT和Google的Bard等生成式AI系统的广泛应用,对更多数据的需求不断增加。

这些AI系统需要大量的文本、图像和视频数据进行训练。OpenAI强调GPT-4是通过经过授权和公开可用的数据源进行学习的。然而,由于对从互联网抓取数据的担忧,OpenAI和Google在数据获取方面面临公众的反对。

d2b5ca33bd101542

提升AI模型的质量需要人类生成的内容,但问题在于公司是否应该为这些内容支付费用或者从互联网上收集。未来,人类生成的内容可能会被高价售卖。

最近,OpenAI开始使用由ChatGPT生成的数据集来训练GPT-4,但仅仅依赖这些数据可能导致模型不稳定。这种情况发生在模型从其他模型生成的数据中进行学习,导致数据失真。此外,未经作者同意或未署名作者的作品使用也成为了讨论的焦点。上个月,数千名作者签署请愿书,要求AI公司停止未经许可使用他们的作品。

目前,OpenAI和Google都把是否允许生成式AI挖掘他们的内容的决定权交给了内容提供商。Google提议建立一个类似于robots.txt的社区开发标准,允许内容提供商选择禁止被AI系统抓取。

OpenAI已经采取了初步措施,将其添加到网站的robots.txt文件中,让网站所有者选择不允许GPTBot访问。OpenAI还与美联社合作,以获取实时数据进行未来的模型训练,并寻求避免法律纠纷并向创作者提供补偿。

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容