AI训练数据收集受限：Google和OpenAI面临版权法挑战-山海云端论坛

Google和OpenAI正面临着版权法在其AI训练数据收集方面的限制。随着ChatGPT和Google的Bard等生成式AI系统的广泛应用，对更多数据的需求不断增加。

这些AI系统需要大量的文本、图像和视频数据进行训练。OpenAI强调GPT-4是通过经过授权和公开可用的数据源进行学习的。然而，由于对从互联网抓取数据的担忧，OpenAI和Google在数据获取方面面临公众的反对。

提升AI模型的质量需要人类生成的内容，但问题在于公司是否应该为这些内容支付费用或者从互联网上收集。未来，人类生成的内容可能会被高价售卖。

最近，OpenAI开始使用由ChatGPT生成的数据集来训练GPT-4，但仅仅依赖这些数据可能导致模型不稳定。这种情况发生在模型从其他模型生成的数据中进行学习，导致数据失真。此外，未经作者同意或未署名作者的作品使用也成为了讨论的焦点。上个月，数千名作者签署请愿书，要求AI公司停止未经许可使用他们的作品。

目前，OpenAI和Google都把是否允许生成式AI挖掘他们的内容的决定权交给了内容提供商。Google提议建立一个类似于robots.txt的社区开发标准，允许内容提供商选择禁止被AI系统抓取。

OpenAI已经采取了初步措施，将其添加到网站的robots.txt文件中，让网站所有者选择不允许GPTBot访问。OpenAI还与美联社合作，以获取实时数据进行未来的模型训练，并寻求避免法律纠纷并向创作者提供补偿。

版权声明 1 本网站名称：山海云端-专注于PHP与网络安全
2 本站永久网址：www.shserve.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ1790643379进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END