OpenAI允许网站屏蔽其网络爬虫,保护内容数据

OpenAI目前已经开始允许网站屏蔽其网络爬虫,以协助网站运营商防止其内容被用于训练GPT模型。

具体而言,网站可以通过在其Robots.txt文件中明确禁止GPTBot爬虫程序的访问,或者阻止其IP地址来实现屏蔽。

d2b5ca33bd095332

OpenAI强调,通过GPTBot抓取的网页可能会被用于改进未来的模型,但也会进行过滤以删除付费访问所需、包含个人身份信息或违反政策的内容来源。

这个阻止GPTBot的措施可以被看作是OpenAI为允许互联网用户选择不将其数据用于训练大型语言模型迈出的第一步。此前已经有一些尝试创建标记,以排除用于训练的内容,例如去年DeviantArt提出的“NoAI”标签。然而,阻止GPTBot并不会从ChatGPT的训练数据中删除以前从网站上抓取的内容。

获取用于AI训练的数据已经成为一个备受争议的问题。一些网站,包括Reddit和Twitter,一直在努力限制AI公司对用户发布内容的免费使用,同时一些作者和创作人也因涉嫌未经授权使用其作品而提起诉讼。在上个月的几次AI监管听证会上,议员们还关注了数据隐私和同意问题。

至于数据获取方式,OpenAI并未明确确认是否使用了社交媒体帖子、受版权保护的作品或互联网的哪些部分来获取数据。

据Axios报道,一些公司,如Adobe,提出了通过反冒充法来标记数据,以防止其被用于训练。OpenAI与白宫签署的协议中同意开发一种水印系统,以让人们知道某个内容是否由AI生成,但并未承诺停止使用互联网数据进行训练。

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容