防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎

快科技8月22日消息,据最新报道,百度百科近期采取了新举措,开始屏蔽包括谷歌、必应等在内的大多数搜索引擎,此举预计旨在防止这些搜索引擎及其他爬虫未经授权抓取百度百科的内容用于AI训练

从百度百科的robots.txt文件可以看出,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数搜索引擎获得了抓取其内容的许可。

谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他所有搜索引擎爬虫均被明确禁止抓取百度百科的内容。尽管360搜索并未在封禁列表中单独提及,但由于百度百科的策略是禁止所有非白名单爬虫抓取,因此360搜索和其他搜索引擎也同样受到了屏蔽。

然而,值得注意的是,百度百科的这种做法可能只能防住一部分遵守规则的爬虫,对于那些采用各种手段继续抓取内容用于AI训练的爬虫来说,可能仍然难以完全阻止。

版权声明:AI导航网 发表于 2024-08-22 12:57:57。
转载请注明:防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎 | AI导航网

暂无评论

暂无评论...