研究显示，全球排名前100的网站中约有26%已屏蔽针对GPTBot的访问

AI行业资讯 1年前 (2023) AI导航网

根据最新分析，使用人工智能内容检查器和抄袭检查服务Originality.ai的数据显示，目前排名前100的网站中，至少有26个网站（排名前1000则有242个）已经屏蔽了8月7日推出的网络爬虫GPTBot。

与上个月相比，这个数字增加了250%。上个月在排名前1000的网站中，只有69个屏蔽了GPTBot。

对是否屏蔽GPTBot一直是许多SEO人员面临的重要问题，因为GPTBot没有引用或链接到其来源。我们允许搜索引擎爬取我们的内容，因为这有明显的潜在好处——通过直接链接/引用获得更多的流量。

显然，更多受欢迎的网站决定屏蔽GPTBot，可能是因为他们不希望OpenAI 在没有任何形式补偿的情况下使用他们的数据来帮助训练模型。

其中12个热门网站已经屏蔽了GPTBot。在上个月新增的100个最受欢迎的网站中，大部分都是发布新闻和信息的网站，包括：

- pinterest.com
- indeed.com
- theguardian.com
- sciencedirect.com
- usatoday.com
- stackexchange.com
- alamy.com
- webmd.com
- dictionary.com
- washingtonpost.com
- npr.org
- cbsnews.com

有趣的是，在上个月屏蔽GPTBot的Foursquare目前已经取消了屏蔽。

那么CCbot呢？Common Crawl的网络爬虫仍然被少数网站（共130个）屏蔽。值得注意的是，Common Crawl为OpenAI 、Google和其他公司提供了部分训练数据。

此外，在本次分析中发现，在1000个网站中有67个robots.txt文件没有被识别或检查。（这就是为什么在文章开头写了"至少"的原因。）

AI行业资讯屏蔽针对GPTBot的访问

版权声明：AI导航网发表于 2023-09-30 13:27:04。
转载请注明：研究显示，全球排名前100的网站中约有26%已屏蔽针对GPTBot的访问 | AI导航网

暂无评论

暂无评论...

研究显示，全球排名前100的网站中约有26%已屏蔽针对GPTBot的访问

联合创始人 Greg Brockman 探讨人工智能在联合国北达科他大学的未来

Meta推出新的大型AI模型Llama 2 Long

暂无评论

归档

分类