谷歌正式宣布:GoogleBot【谷歌蜘蛛】将不再遵守Robots.txt的索引指令。依赖robots.txt noindex指令的出版商必须在2019年9月1日前删除该指令,并开始使用替代指令。
Robots.txt Noindex为非官方指令。
谷歌过去曾支持过这个robots.txt指令,但以后不再支持了。
“
在开源解析器库时,我们分析了robots.txt规则的用法。我们特别关注internet草案不支持的规则,比如爬行延迟、nofollow和noindex。由于这些规则从来没有被谷歌记录下来,自然,它们在Googlebot中的使用非常少。进一步挖掘,我们发现除了0.001%的互联网robots.txt文件之外,它们的使用都与其他规则相矛盾。这些错误损害了网站在谷歌搜索结果中的存在,我们认为这不是网站管理员的本意。
为了维护一个健康的生态系统,并为未来可能的开源版本做准备,我们将在2019年9月1日停用所有处理不受支持和未发布规则(如noindex)的代码。对于那些依赖robots.txt文件中的noindex索引指令(控制爬行)的人来说,有一些替代选项可供选择。
1、机器人元标记中的Noindex:
在HTTP响应标头和HTML中都支持,noindex指令是在允许爬网时从索引中删除URL的最有效方法。
2、404和410 HTTP状态代码:
两个状态代码都表示该页面不存在,一旦抓取和处理这些url,就会从谷歌的索引中删除它们。
3、 密码保护:
除非使用标记来表示订阅或支付内容,否则在登录后隐藏页面通常会将其从谷歌的索引中删除。
4、禁止在robots.txt中:
搜索引擎只能索引他们知道的网页,因此阻止网页被抓取通常意味着其内容不会被编入索引。虽然搜索引擎也可以基于来自其他页面的链接索引URL,而不会看到内容本身,但我们的目标是在未来减少此类页面的可见性。
5、搜索控制台删除网址工具:
该工具是一种从Google搜索结果中临时删除网址的快捷方法。