互联网巨头Cloudflare近期对新兴人工智能公司Perplexity发起了强烈指责,指控其采用隐蔽的爬虫技术,绕过网站封锁,擅自获取被明确禁止访问的内容。这一争端不仅引发了业界广泛关注,也将AI公司数据获取与网站主权保护的冲突推向了风口浪尖。
据悉,Cloudflare的安全团队在深入调查后发现,当Perplexity的官方爬虫(标记为“PerplexityBot”)被robots.txt文件或防火墙规则阻挡时,该公司会迅速启用一种未公开声明的备用爬虫程序。该程序通过两大策略来伪装身份:一是篡改用户代理信息,伪装成使用macOS操作系统的Chrome浏览器用户进行访问;二是频繁更换网络标识,包括IP地址和自治系统网络(ASN),以此规避封锁。这种行为据称每天涉及数万个域名,产生数百万次的违规请求。
冲突的升级源自Cloudflare收到的客户投诉。尽管客户已经采取了技术手段屏蔽Perplexity的爬虫,但他们的网站内容依然出现在Perplexity的搜索结果中。Cloudflare经过验证后,迅速采取了行动,首先将Perplexity从“已验证机器人”的白名单中移除,随后向所有用户(包括免费客户)提供了拦截其隐形爬虫的技术解决方案。
面对Cloudflare的指控,Perplexity的发言人杰西·德怀尔予以驳斥,称其为“炒作”,并表示报告存在“根本性的误解”。然而,Cloudflare提供的实验记录显示,他们专门设置的测试域名(设置了严格的访问限制)的内容,依然被Perplexity的爬虫抓取并进行了分析。
Cloudflare的首席执行官马修·普林斯指出了问题的核心:AI公司在抓取数据时的效率与网站的实际收益严重脱节。他列举了一组数据:“OpenAI每1500次抓取能带来1次用户跳转,Anthropic的比例更是高达73300:1,而谷歌仅为18:1。”为了解决这一问题,Cloudflare在2025年7月推出了两项创新举措:一是“按次收费”(Pay Per Crawl)系统,允许网站向AI公司按抓取次数收取费用;二是“AI迷宫”防御工具,通过提供虚假内容来消耗恶意爬虫的资源。
目前,已有超过百万的网站,包括美联社和Reddit等,加入了封锁AI爬虫的行列。这一行动无疑加剧了互联网行业内部的博弈,而维系互联网秩序三十余年的robots.txt协议,也面临着人工智能时代的全新挑战。