研究显示,全球排名前100的网站中约有26%已屏蔽针对GPTBot的访问

根据最新分析,使用人工智能内容检查器和抄袭检查服务Originality.ai的数据显示,目前排名前100的网站中,至少有26个网站(排名前1000则有242个)已经屏蔽了8月7日推出的网络爬虫GPTBot研究显示,全球排名前100的网站中约有26%已屏蔽针对GPTBot的访问

与上个月相比,这个数字增加了250%。上个月在排名前1000的网站中,只有69个屏蔽了GPTBot。

对是否屏蔽GPTBot一直是许多SEO人员面临的重要问题,因为GPTBot没有引用或链接到其来源。我们允许搜索引擎爬取我们的内容,因为这有明显的潜在好处——通过直接链接/引用获得更多的流量。

显然,更多受欢迎的网站决定屏蔽GPTBot,可能是因为他们不希望OpenAI 在没有任何形式补偿的情况下使用他们的数据来帮助训练模型

其中12个热门网站已经屏蔽了GPTBot。在上个月新增的100个最受欢迎的网站中,大部分都是发布新闻和信息的网站,包括:

- pinterest.com
- indeed.com
- theguardian.com
- sciencedirect.com
- usatoday.com
- stackexchange.com
- alamy.com
- webmd.com
- dictionary.com
- washingtonpost.com
- npr.org
- cbsnews.com

有趣的是,在上个月屏蔽GPTBot的Foursquare目前已经取消了屏蔽。

那么CCbot呢?Common Crawl的网络爬虫仍然被少数网站(共130个)屏蔽。值得注意的是,Common Crawl为OpenAI 、Google和其他公司提供了部分训练数据。

此外,在本次分析中发现,在1000个网站中有67个robots.txt文件没有被识别或检查。(这就是为什么在文章开头写了"至少"的原因。)

暂无评论

暂无评论...