OpenAI允许网站屏蔽其网络爬虫，保护内容数据-山海云端论坛

OpenAI目前已经开始允许网站屏蔽其网络爬虫，以协助网站运营商防止其内容被用于训练GPT模型。

具体而言，网站可以通过在其Robots.txt文件中明确禁止GPTBot爬虫程序的访问，或者阻止其IP地址来实现屏蔽。

OpenAI强调，通过GPTBot抓取的网页可能会被用于改进未来的模型，但也会进行过滤以删除付费访问所需、包含个人身份信息或违反政策的内容来源。

这个阻止GPTBot的措施可以被看作是OpenAI为允许互联网用户选择不将其数据用于训练大型语言模型迈出的第一步。此前已经有一些尝试创建标记，以排除用于训练的内容，例如去年DeviantArt提出的“NoAI”标签。然而，阻止GPTBot并不会从ChatGPT的训练数据中删除以前从网站上抓取的内容。

获取用于AI训练的数据已经成为一个备受争议的问题。一些网站，包括Reddit和Twitter，一直在努力限制AI公司对用户发布内容的免费使用，同时一些作者和创作人也因涉嫌未经授权使用其作品而提起诉讼。在上个月的几次AI监管听证会上，议员们还关注了数据隐私和同意问题。

至于数据获取方式，OpenAI并未明确确认是否使用了社交媒体帖子、受版权保护的作品或互联网的哪些部分来获取数据。

据Axios报道，一些公司，如Adobe，提出了通过反冒充法来标记数据，以防止其被用于训练。OpenAI与白宫签署的协议中同意开发一种水印系统，以让人们知道某个内容是否由AI生成，但并未承诺停止使用互联网数据进行训练。

版权声明 1 本网站名称：山海云端-专注于PHP与网络安全
2 本站永久网址：www.shserve.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ1790643379进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END