Cloudflare(NET.N),这家上市的云服务提供商,推出了一款新的免费工具,旨在阻止机器人对其平台托管的网站进行数据爬取,用于训练AI模型。
一些AI供应商,包括谷歌(GOOGL.O)、OpenAI和苹果(AAPL.O),允许网站所有者通过修改其网站的robots.txt文件来阻止他们用于数据爬取和模型训练的机器人。但正如Cloudflare在其宣布防止机器人的工具的帖子中指出的那样,并非所有的AI爬虫都遵守这一规则。
公司在其官方博客上写道:“客户不希望AI机器人访问他们的网站,尤其是那些不诚实的机器人。我们担心,一些企图规避规则获取内容的AI公司将持续调整以逃避机器人检测。”
因此,为了解决这个问题,Cloudflare分析了AI机器人和网络爬虫的流量,优化了自动机器人检测模型。这些模型考虑了多种因素,包括AI机器人是否试图通过模仿使用Web浏览器的外观和行为来规避检测。
Cloudflare表示:“当恶意行为者试图大规模爬取网站时,他们通常使用我们可以指纹识别的工具和框架。基于这些信号,我们的模型能够适当地标记来自规避型AI机器人的流量。”
Cloudflare已设置了一个表单,供主机报告涉嫌的AI机器人和网络爬虫,并表示将继续逐步加入黑名单。
随着生成式AI的繁荣推动模型训练数据的需求,AI机器人的问题变得尤为突出。
许多网站对AI供应商未经通知或补偿就对其内容进行模型训练感到警惕,选择封锁AI爬虫和网络爬虫。据一项研究显示,全球排名前1000的网站中约有26%封锁了OpenAI的机器人;另一项研究发现,超过600家新闻出版商已封锁了这种机器人。
然而,封锁并非百分之百有效的保护措施。正如前文所述,一些供应商似乎在忽略标准的机器人排除规则,以在AI竞赛中获得竞争优势。AI搜索引擎Perplexity最近被指控冒充合法访问者从网站爬取内容,而OpenAI和Anthropic据称有时也忽略robots.txt规则。
在上个月写给出版商的一封信中,内容许可创业公司TollBit表示,事实上,他们看到“许多AI代理”都在无视robots.txt标准。
像Cloudflare这样的工具可能会有所帮助,但前提是它们能够准确检测秘密操作的AI机器人。它们并不能解决发布者面临的更难解决的问题,即如果封锁了特定的AI爬虫,可能会牺牲来自像谷歌AI概览这样的工具的转介流量。